| 규모 | 월 영상 수 | AI API | TTS | 인프라 | 월 총비용 (추정) |
|---|
| PoC | 30건 | $8 | $0 | $37 | ~$46 |
| 소규모 운영 | 100건 | $26 | $0 | $50 | ~$76 |
| 중규모 운영 | 500건 | $130 | $0 | $130 | ~$260 |
| 대규모 운영 | 2,000건 | $520 | $8 | $350 | ~$878 |
기존 GPT-4o 기반 대비 전 규모에서 40~50% 비용 절감
| 규모 | 월 영상 수 | Gemini Flash | GPT-4o Low | 절감률 |
|---|
| PoC | 30건 | ~$46 | ~$55 | 16% |
| 소규모 | 100건 | ~$76 | ~$110 | 31% |
| 중규모 | 500건 | ~$260 | ~$420 | 38% |
| 대규모 | 2,000건 | ~$878 | ~$1,475 | 40% |
규모가 커질수록 Gemini Flash의 낮은 AI API 단가 ($0.30 input / $2.50 output) 와 STT 비용 제거 효과가 두드러집니다.
| 요인 | 비용 증가 방향 | 비용 감소 방향 |
|---|
| Gemini 모델 | Pro ($1.25~$2.50 input) | Flash-Lite ($0.10 input) |
| Gemini 비디오 해상도 | 기본 (258 tokens/초) | 저해상도 (100 tokens/초) |
| 영상 해상도 | 4K 영상 → S3 비용 3~5배 | HD 영상 |
| 처리 방식 | 실시간 (Standard Tier) | Batch/Flex Tier (50% 할인) |
| 캐싱 | 미사용 | Context Caching (입력 75% 할인) |
| TTS 엔진 | Neural2 ($16/100만) / CLOVA (~$3,000/100만) | WaveNet ($4/100만, 무료 티어) |
| 대안 사용 시 | GPT-4o ($2.50 input) + Whisper ($0.006/분) | — |
| 모델 | 30건/월 | 100건/월 | 500건/월 | 비고 |
|---|
| Flash (권장) | $7.80 | $26 | $130 | 최적 비용/성능 비율 |
| Flash-Lite | $2.21 | $7.4 | $37 | 최저가, 품질 확인 필요 |
| Pro (≤200K) | $28.07 | $94 | $468 | 최고 품질, 복잡한 영상 |
| Flash + Batch | $3.91 | $13 | $65 | 비실시간, 50% 할인 |
| Flash + Caching | ~$2.50 | ~$8.3 | ~$42 | 유사 영상 반복 시 효과적 |
- TTS 무료 범위: ~1,300건까지 Google TTS WaveNet 무료 티어(400만 글자/월)로 커버 가능 (영상당 ~3,000 글자 기준)
- 인프라 최적화: 오토스케일링, 스팟 인스턴스 활용으로 최적화 가능
- AI API 절감: Gemini Flash-Lite 전환 시 Flash 대비 72% 추가 절감, Batch Tier 병행 시 50% 추가 절감
- S3 비용 주의: 4K 영상(건당 8~15GB) 처리 시 스토리지/전송 비용이 FHD 대비 3~5배 증가
- Gemini 컨텍스트 윈도우: 1,048,576 tokens → 약 1시간 영상까지 단일 호출로 분석 가능. 1시간 초과 영상은 분할 처리 필요