콘텐츠로 이동

비용 최적화 전략

Gemini API 최적화

Context Caching (입력 비용 75% 절감)

동일하거나 유사한 시스템 프롬프트, 가이드라인 문서를 캐시에 저장
캐시된 토큰은 표준 입력 비용 대비 75% 할인 (Flash 기준: $0.30 → $0.075/1M)
캐시 저장 비용: Flash $1.00/1M tokens/hr
적용 시나리오: 화면해설 가이드라인, 장르별 템플릿 등 반복 사용되는 프롬프트
절감 효과: 프롬프트/가이드라인 부분만 해당 (비디오 토큰은 매번 새로 입력)

Batch/Flex Tier (50% 할인)

비실시간 처리 시 표준 대비 50% 할인
PoC에서는 실시간 응답이 필요 없으므로 대부분의 분석/생성 작업에 적용 가능
Flash 기준: Input $0.30 → $0.15/1M, Output $2.50 → $1.25/1M
PoC 30건/월 적용 시: AI API $7.80 → ~$3.91 (50% 절감)

모델 다운그레이드

Flash-Lite 전환: Flash 대비 Input 67% 절감 ($0.30 → $0.10), Output 84% 절감 ($2.50 → $0.40)
품질 검증 후 단순한 장면 분석은 Flash-Lite, 복잡한 장면만 Flash/Pro 사용
하이브리드 전략: 초기 장면 분류는 Flash-Lite → 상세 분석만 Flash/Pro

비디오 해상도 조정

mediaResolution: low 설정 시 비디오 토큰 61% 절감 (258 → 100 tokens/초)
30분 영상: 464,400 → 180,000 tokens
화면해설에 고해상도가 불필요한 경우(단순 장면 전환, 대략적 동작) 적용

대안 (GPT-4o 사용 시) AI API 최적화

하이브리드 모델 전략: 초기 장면 분류는 GPT-4o-mini ($0.15/1M), 상세 분석만 GPT-4o 사용
OpenAI Batch API: 50% 할인 (24시간 내 처리)
Fine-tuning: 충분한 데이터 축적 후 GPT-4o-mini Fine-tuning → 품질 유지하며 비용 절감

인프라 최적화

스팟 인스턴스: 영상 처리 워크로드에 스팟 인스턴스 활용 (최대 60~70% 절감)
서버리스 전환: Lambda + API Gateway로 API 서버 전환 시 유휴 비용 제거
S3 Lifecycle: 처리 완료된 원본 영상 → S3 Glacier 자동 이전 ($0.004/GB)
Free Tier 활용: RDS, ElastiCache, S3 첫 12개월 무료 티어 최대 활용
Gemini 주력 시 추가 절감: 프레임 이미지 S3 저장 불필요, FFmpeg 프레임 추출 EC2 불필요

TTS 최적화

Google Cloud 무료 티어: WaveNet 월 400만 글자 → PoC~소규모에서 무료 운영
캐싱: 동일 텍스트 TTS 결과 캐싱
프리뷰/최종 분리: 편집 중 프리뷰는 Standard TTS, 최종 출력만 고품질 엔진 사용

최적화 적용 시 비용 비교 (PoC 30건/월)

최적화 수준	AI API	인프라	총 비용	절감률 (기본 대비)
기본 (Flash, Standard)	$7.80	$37	~$46	기준
Flash + Batch Tier	$3.91	$37	~$42	9%
Flash-Lite + Batch	$1.11	$37	~$39	15%
Flash + Caching + Batch	~$2.50	$37	~$41	11%
Flash-Lite + 저해상도 + Batch	~$0.70	$37	~$39	15%
서버리스 전환 시	$7.80	~$15	~$24	48%