| 항목 | 수치 | 비고 |
|---|
| 월간 처리 영상 수 | 30건 | 하루 1~2건 |
| 영상 평균 길이 | 30분 | TV 프로그램 1회분 |
| 영상 해상도 | FHD (1920x1080) | H.264 기준 |
| 영상 파일 크기 | ~2~3GB/건 | FHD H.264 30분 기준 |
| 영상당 장면 수 | ~60개 | 30초당 1장면 (해설 생성 단위) |
| Gemini 비디오 토큰 | 258 tokens/초 | 기본 해상도 (1 FPS 자동 샘플링) |
| Gemini 오디오 토큰 | 25 tokens/초 | 비디오 분석 시 자동 포함 |
| 30분 영상 입력 토큰 | 509,400 tokens | 1,800초 × (258+25) |
| 장면당 해설 생성 토큰 (output) | ~500 tokens | 해설 텍스트 |
| 해설 텍스트 총 글자 수 | ~3,000 글자/영상 | 한국어 기준 |
| 월간 총 TTS 글자 수 | ~90,000 글자 | 30건 × 3,000 글자 |
| 월간 총 스토리지 증가 | ~75GB | 원본 + 합성 결과 (프레임 이미지 불필요) |
| 항목 | 산출 근거 | 월 비용 |
|---|
| 영상 분석 (비디오 입력) | 30건 × 464,400 비디오 tokens = 13.93M tokens × $0.30/1M | $4.18 |
| 영상 분석 (오디오 입력) | 30건 × 45,000 오디오 tokens = 1.35M tokens × $1.00/1M | $1.35 |
| 해설 생성 (Output) | 30건 × 60장면 × 500 tokens = 0.9M tokens × $2.50/1M | $2.25 |
| 프롬프트 입력 (텍스트) | 30건 × ~2,000 tokens (시스템 프롬프트) = 0.06M × $0.30/1M | $0.02 |
| STT (별도 불필요) | Gemini 오디오 분석에 포함 | $0 |
| 소계 | | $7.80 |
기존 GPT-4o 대비 절감: AI API 비용이 $16~21 → $7.80으로 50~63% 절감. Whisper STT 비용($5.40)이 완전히 제거된 것이 핵심.
GPT-4o 시나리오 상세 (접기/펼치기)
| 항목 | 산출 근거 | 월 비용 |
|---|
| 영상 분석 (GPT-4o Vision) | 30건 × 60프레임 × (85 + 300) = 0.69M input tokens × $2.50/1M | $1.73 |
| 해설 생성 (GPT-4o) | 30건 × 60장면 × 500 output tokens = 0.9M × $10.00/1M | $9.00 |
| 음성 인식 (Whisper) | 30건 × 30분 = 900분 × $0.006/분 | $5.40 |
| 소계 | | $16.13 |
| 항목 | 산출 근거 | 월 비용 |
|---|
| 영상 분석 (GPT-4o Vision) | 30건 × 60프레임 × (1,105 + 300) = 2.53M input tokens × $2.50/1M | $6.32 |
| 해설 생성 (GPT-4o) | 30건 × 60장면 × 500 output tokens = 0.9M × $10.00/1M | $9.00 |
| 음성 인식 (Whisper) | 30건 × 30분 = 900분 × $0.006/분 | $5.40 |
| 소계 | | $20.72 |
| 항목 | 산출 근거 | 월 비용 |
|---|
| Google Cloud WaveNet | 90,000 글자 (400만 무료 티어 내) | $0 (무료) |
| (무료 초과 시) | 90,000 글자 × $4/100만 | $0.36 |
| NAVER CLOVA Voice (대안) | 90,000 글자 × ₩4/글자 = ₩360,000 | ~$270 |
PoC에서는 Google Cloud WaveNet 무료 티어로 충분
| 항목 | 구성 | 월 비용 |
|---|
| EC2 API 서버 | t3.medium (24/7) | $30 |
| EC2 영상 처리 — 최종 영상 합성 | c5.xlarge 스팟, 30건 × ~10분 ≈ 5시간/월 | ~$0.30 |
| RDS PostgreSQL | db.t3.micro (Free Tier) | $0 |
| ElastiCache Redis | cache.t3.micro (Free Tier) | $0 |
| S3 스토리지 | 75GB/월 누적 (첫 달) | $1.73 |
| S3 데이터 전송 | ~60GB 아웃바운드 | $5.40 |
| 소계 | | ~$37 |
Gemini 주력 시 인프라 절감: 프레임 추출 EC2 비용 제거, 프레임 이미지 S3 저장 불필요 → 기존 $38 → $37로 소폭 절감
| 항목 | 월 비용 |
|---|
| 도메인/SSL | ~$1 (연간 $12 기준) |
| CloudWatch 모니터링 | ~$0 (기본 무료) |
| 소계 | ~$1 |
| 카테고리 | Gemini 2.5 Flash (주력) | GPT-4o Low Detail (대안) | GPT-4o High Detail (대안) |
|---|
| AI API (분석+생성+STT) | $7.80 | $16.13 | $20.72 |
| TTS (Google WaveNet 무료) | $0 | $0 | $0 |
| 인프라 (AWS) | $37 | $38 | $38 |
| 기타 | $1 | $1 | $1 |
| 합계 | ~$46 | ~$55 | ~$60 |
| 합계 (KRW, ₩1,380 기준) | ~₩63,000 | ~₩76,000 | ~₩83,000 |
PoC 단계 월간 운영비 (Gemini 주력): 약 $46 (₩63,000)
기존 GPT-4o 기준 $55~60 대비 약 $10~14 절감 (17~23%)
절감 요인:
- Whisper STT 비용 제거 ($5.40 → $0) — Gemini 오디오 분석에 포함
- AI API 입력 비용 절감 — Gemini Flash의 낮은 입력 단가 ($0.30/1M vs GPT-4o $2.50/1M)
- 해설 생성 출력 비용 절감 — Gemini Flash Output ($2.50/1M vs GPT-4o $10.00/1M)
- 프레임 추출 EC2 비용 제거 — FFmpeg 프레임 추출 불필요
| 모델 | 입력 비용 | 출력 비용 | AI API 소계 | 총 비용 (인프라 포함) |
|---|
| Gemini 2.5 Flash (권장) | $5.55 | $2.25 | $7.80 | ~$46 |
| Gemini 2.5 Flash-Lite | $1.85 | $0.36 | $2.21 | ~$40 |
| Gemini 2.5 Pro (≤200K) | $19.07 | $9.00 | $28.07 | ~$66 |
| Gemini 2.5 Flash + Batch (50% off) | $2.78 | $1.13 | $3.91 | ~$42 |