서비스별 단가표
AI API (LLM)
섹션 제목: “AI API (LLM)”주력: Google Gemini (Vertex AI, Standard Tier)
섹션 제목: “주력: Google Gemini (Vertex AI, Standard Tier)”| 서비스 | 모델 | Input $/1M tokens | Output $/1M tokens | 용도 |
|---|---|---|---|---|
| Gemini 2.5 Flash | $0.30 (text/image/video) | $2.50 | 영상 분석 + 해설 생성 (주력) | |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 초경량, 최저가 옵션 | |
| Gemini 2.5 Pro (≤200K) | $1.25 | $10.00 | 최고 품질 (복잡한 장면) | |
| Gemini 2.5 Pro (>200K) | $2.50 | $15.00 | 긴 영상 (200K 토큰 초과 시) |
- 오디오 입력 단가: Flash $1.00/1M, Flash-Lite $0.30/1M, Pro $1.25/1M (비디오와 별도 산정)
- Context Caching: 캐시된 입력 토큰은 표준 대비 75% 할인, 캐시 저장 비용 Flash $1.00/1M tokens/hr
- Batch/Flex Tier: 표준 대비 50% 할인 (비실시간 처리 시)
대안: OpenAI / Anthropic
섹션 제목: “대안: OpenAI / Anthropic”| 서비스 | 모델 | Input ($/1M tokens) | Output ($/1M tokens) | 용도 |
|---|---|---|---|---|
| OpenAI | GPT-4o | $2.50 | $10.00 | 영상 분석 + 해설 생성 (대안) |
| OpenAI | GPT-4o-mini | $0.15 | $0.60 | 경량 작업, 보조 분석 |
| OpenAI | GPT-4.1 | $2.00 | $8.00 | 대안 (코딩 특화) |
| OpenAI | GPT-4.1-mini | $0.40 | $1.60 | 비용 효율적 대안 |
| OpenAI | GPT-4.1-nano | $0.10 | $0.40 | 초경량 작업 |
| Anthropic | Claude Sonnet 4 (claude-sonnet-4-20250514) | $3.00 | $15.00 | 해설 생성 대안 (고품질) |
| Anthropic | Claude Haiku 4.5 | $1.00 | $5.00 | 경량 작업 대안 |
참고: GPT-4o / Claude는 영상 파일을 직접 입력할 수 없으며, FFmpeg로 추출한 프레임 이미지를 사용합니다.
비디오/이미지 토큰 계산
섹션 제목: “비디오/이미지 토큰 계산”주력: Gemini 비디오 토큰
섹션 제목: “주력: Gemini 비디오 토큰”Gemini는 영상 파일을 직접 업로드하여 분석합니다. 별도의 프레임 추출 과정이 필요 없습니다.
| 입력 유형 | 토큰 산정 | 비고 |
|---|---|---|
| 비디오 | 258 tokens/초 (기본 해상도) | 1 FPS 자동 샘플링 |
| 비디오 (저해상도) | 100 tokens/초 | mediaResolution: low 설정 시 |
| 오디오 (비디오 내장) | 25 tokens/초 | 비디오 분석 시 자동 포함 |
| 이미지 | 258 tokens/장 | 개별 이미지 입력 시 |
30분 영상 토큰 산출
섹션 제목: “30분 영상 토큰 산출”| 구성 | 계산 | 토큰 수 | 입력 비용 (Flash) |
|---|---|---|---|
| 비디오만 | 1,800초 × 258 | 464,400 | $0.139 |
| 비디오 + 오디오 | 1,800초 × (258+25) | 509,400 | $0.153 + 오디오 $0.045 = $0.198 |
| 비디오 (저해상도) | 1,800초 × 100 | 180,000 | $0.054 |
- Gemini 컨텍스트 윈도우: 1,048,576 tokens (약 1시간 영상 분석 가능)
- PoC 권장: 기본 해상도(258 tokens/초) 사용 → 품질 확인 후 필요시 저해상도 전환
대안: GPT-4o Vision 프레임 토큰 (GPT-4o 사용 시)
섹션 제목: “대안: GPT-4o Vision 프레임 토큰 (GPT-4o 사용 시)”GPT-4o Vision은 FFmpeg로 추출한 정지 이미지를 개별 입력합니다.
| 모드 | 해상도 | 타일 수 | 토큰 수 | 프레임당 비용 (Input) |
|---|---|---|---|---|
| Low detail | 해상도 무관 | - | 85 tokens (고정) | $0.0002 |
| High detail | 512x512 | 1타일 | 255 tokens | $0.0006 |
| High detail | 768x768 | 4타일 | 765 tokens | $0.0019 |
| High detail | 1920x1080 (FHD) | 6타일 | 1,105 tokens | $0.0028 |
| High detail | 3840x2160 (4K) | 6타일 | 1,105 tokens | $0.0028 |
- High detail 계산 방식: 이미지를 최단변 768px로 리사이즈 → 512x512 타일로 분할 → 타일당 170 tokens + base 85 tokens
- 4K 이미지는 내부적으로 FHD 수준으로 다운스케일되므로 토큰 수 동일
30분 영상 1건 입력 비용 비교
섹션 제목: “30분 영상 1건 입력 비용 비교”| 접근 방식 | 입력 토큰 | 입력 비용 | FFmpeg 필요 | 비고 |
|---|---|---|---|---|
| Gemini 2.5 Flash (비디오 직접) | 509,400 | $0.198 | 불필요 | 비디오+오디오 동시, 시간적 맥락 이해 |
| Gemini 2.5 Flash-Lite | 509,400 | $0.096 | 불필요 | 최저가 |
| Gemini 2.5 Pro | 509,400 | $0.637 | 불필요 | 최고 품질 |
| GPT-4o + 프레임 추출 (low detail) | 23,100 | $0.058 | 필수 | 60프레임 × 385 tokens |
| GPT-4o + 프레임 추출 (high detail) | 84,300 | $0.211 | 필수 | 60프레임 × 1,405 tokens |
참고: GPT-4o의 입력 토큰 수는 적지만, 별도 Whisper STT 비용($0.006/분 × 30분 = $0.18)과 FFmpeg 처리 비용이 추가됩니다. Gemini는 비디오+오디오를 단일 호출로 처리하므로 총 비용과 파이프라인 복잡도에서 유리합니다.
음성 인식 (STT)
섹션 제목: “음성 인식 (STT)”주력: Gemini 내장 오디오 분석
섹션 제목: “주력: Gemini 내장 오디오 분석”Gemini 비디오 분석 시 오디오가 자동으로 포함되므로, 별도 STT 서비스가 불필요합니다.
- 오디오 토큰: 25 tokens/초 (비디오 분석 비용에 포함)
- 대사 타이밍 추출, 화자 구분 가능 (타임스탬프 기반 질의)
- 추가 비용: $0 (별도 API 호출 불필요)
대안: Whisper API (GPT-4o 사용 시)
섹션 제목: “대안: Whisper API (GPT-4o 사용 시)”| 서비스 | 모델 | 단가 | 비고 |
|---|---|---|---|
| OpenAI | Whisper (gpt-4o-transcribe) | $0.006 / 분 | 한국어 지원, 파일 25MB 제한 |
| OpenAI | Whisper (gpt-4o-mini-transcribe) | $0.003 / 분 | 경량 버전, 파일 25MB 제한 |
| OpenAI | Whisper (gpt-4o-transcribe-diarize) | $0.006 / 분 | 화자분리 내장 — pyannote 대체 가능, 25MB 제한 |
음성 합성 (TTS)
섹션 제목: “음성 합성 (TTS)”| 서비스 | 엔진 | 단가 | 무료 티어 | 비고 |
|---|---|---|---|---|
| Google Cloud | WaveNet | $4 / 100만 글자 | 월 400만 글자 무료 | 자연스러운 음성 |
| Google Cloud | Neural2 | $16 / 100만 글자 | 월 100만 글자 무료 | 고품질 |
| Google Cloud | Chirp 3 HD | $30 / 100만 글자 | - | 최고 음성 품질, SSML 미지원 → 화면해설 부적합 |
| Google Cloud | Standard | $4 / 100만 글자 | 월 400만 글자 무료 | 기본 품질 |
| OpenAI | tts-1 | $15 / 100만 글자 | - | 실시간 최적화 |
| OpenAI | tts-1-hd | $30 / 100만 글자 | - | 고품질 |
| NAVER | CLOVA Voice Premium | ~₩4 / 글자 (약 $0.003) | - | 한국어 최적화 |
PoC 권장: Google Cloud WaveNet (무료 티어 활용 + 합리적 품질/가격 + SSML 지원)
한국어 특화: NAVER CLOVA Voice (자연스러운 한국어, 단 비용 높음)
Chirp 3 HD 제외 권장: SSML 미지원으로 음성 속도/일시정지 제어 불가 — 화면해설의 타이밍 동기화에 부적합
Fine-tuning (모델 갱신)
섹션 제목: “Fine-tuning (모델 갱신)”| 서비스 | 모델 | 학습 비용 | 추론 비용 (Input/Output) |
|---|---|---|---|
| OpenAI | GPT-4o Fine-tuning | $25.00 / 1M tokens | $3.75 / $15.00 per 1M tokens |
| OpenAI | GPT-4o-mini Fine-tuning | $3.00 / 1M tokens | $0.30 / $1.20 per 1M tokens |
| OpenAI | GPT-4.1-mini Fine-tuning | $4.00 / 1M tokens | 기본 모델과 동일 |
PoC 단계: Fine-tuning은 P3 우선순위 (충분한 학습 데이터 축적 후 진행)
Vision Fine-tuning 제약:
gpt-4o-2024-08-06모델만 가능. 인물 사진 포함 학습 데이터 제외. 최소 10개, 권장 50~100개 학습 예시 필요