콘텐츠로 이동

서비스별 단가표

AI API (LLM)

주력: Google Gemini (Vertex AI, Standard Tier)

서비스	모델	Input $/1M tokens	Output $/1M tokens	용도
Google	Gemini 2.5 Flash	$0.30 (text/image/video)	$2.50	영상 분석 + 해설 생성 (주력)
Google	Gemini 2.5 Flash-Lite	$0.10	$0.40	초경량, 최저가 옵션
Google	Gemini 2.5 Pro (≤200K)	$1.25	$10.00	최고 품질 (복잡한 장면)
Google	Gemini 2.5 Pro (>200K)	$2.50	$15.00	긴 영상 (200K 토큰 초과 시)

오디오 입력 단가: Flash $1.00/1M, Flash-Lite $0.30/1M, Pro $1.25/1M (비디오와 별도 산정)

Context Caching: 캐시된 입력 토큰은 표준 대비 75% 할인, 캐시 저장 비용 Flash $1.00/1M tokens/hr

Batch/Flex Tier: 표준 대비 50% 할인 (비실시간 처리 시)

대안: OpenAI / Anthropic

서비스	모델	Input ($/1M tokens)	Output ($/1M tokens)	용도
OpenAI	GPT-4o	$2.50	$10.00	영상 분석 + 해설 생성 (대안)
OpenAI	GPT-4o-mini	$0.15	$0.60	경량 작업, 보조 분석
OpenAI	GPT-4.1	$2.00	$8.00	대안 (코딩 특화)
OpenAI	GPT-4.1-mini	$0.40	$1.60	비용 효율적 대안
OpenAI	GPT-4.1-nano	$0.10	$0.40	초경량 작업
Anthropic	Claude Sonnet 4 (`claude-sonnet-4-20250514`)	$3.00	$15.00	해설 생성 대안 (고품질)
Anthropic	Claude Haiku 4.5	$1.00	$5.00	경량 작업 대안

참고: GPT-4o / Claude는 영상 파일을 직접 입력할 수 없으며, FFmpeg로 추출한 프레임 이미지를 사용합니다.

비디오/이미지 토큰 계산

주력: Gemini 비디오 토큰

Gemini는 영상 파일을 직접 업로드하여 분석합니다. 별도의 프레임 추출 과정이 필요 없습니다.

입력 유형	토큰 산정	비고
비디오	258 tokens/초 (기본 해상도)	1 FPS 자동 샘플링
비디오 (저해상도)	100 tokens/초	`mediaResolution: low` 설정 시
오디오 (비디오 내장)	25 tokens/초	비디오 분석 시 자동 포함
이미지	258 tokens/장	개별 이미지 입력 시

30분 영상 토큰 산출

구성	계산	토큰 수	입력 비용 (Flash)
비디오만	1,800초 × 258	464,400	$0.139
비디오 + 오디오	1,800초 × (258+25)	509,400	$0.153 + 오디오 $0.045 = $0.198
비디오 (저해상도)	1,800초 × 100	180,000	$0.054

Gemini 컨텍스트 윈도우: 1,048,576 tokens (약 1시간 영상 분석 가능)

PoC 권장: 기본 해상도(258 tokens/초) 사용 → 품질 확인 후 필요시 저해상도 전환

대안: GPT-4o Vision 프레임 토큰 (GPT-4o 사용 시)

GPT-4o Vision은 FFmpeg로 추출한 정지 이미지를 개별 입력합니다.

모드	해상도	타일 수	토큰 수	프레임당 비용 (Input)
Low detail	해상도 무관	-	85 tokens (고정)	$0.0002
High detail	512x512	1타일	255 tokens	$0.0006
High detail	768x768	4타일	765 tokens	$0.0019
High detail	1920x1080 (FHD)	6타일	1,105 tokens	$0.0028
High detail	3840x2160 (4K)	6타일	1,105 tokens	$0.0028

High detail 계산 방식: 이미지를 최단변 768px로 리사이즈 → 512x512 타일로 분할 → 타일당 170 tokens + base 85 tokens

4K 이미지는 내부적으로 FHD 수준으로 다운스케일되므로 토큰 수 동일

30분 영상 1건 입력 비용 비교

접근 방식	입력 토큰	입력 비용	FFmpeg 필요	비고
Gemini 2.5 Flash (비디오 직접)	509,400	$0.198	불필요	비디오+오디오 동시, 시간적 맥락 이해
Gemini 2.5 Flash-Lite	509,400	$0.096	불필요	최저가
Gemini 2.5 Pro	509,400	$0.637	불필요	최고 품질
GPT-4o + 프레임 추출 (low detail)	23,100	$0.058	필수	60프레임 × 385 tokens
GPT-4o + 프레임 추출 (high detail)	84,300	$0.211	필수	60프레임 × 1,405 tokens

참고: GPT-4o의 입력 토큰 수는 적지만, 별도 Whisper STT 비용($0.006/분 × 30분 = $0.18)과 FFmpeg 처리 비용이 추가됩니다. Gemini는 비디오+오디오를 단일 호출로 처리하므로 총 비용과 파이프라인 복잡도에서 유리합니다.

음성 인식 (STT)

주력: Gemini 내장 오디오 분석

Gemini 비디오 분석 시 오디오가 자동으로 포함되므로, 별도 STT 서비스가 불필요합니다.

오디오 토큰: 25 tokens/초 (비디오 분석 비용에 포함)
대사 타이밍 추출, 화자 구분 가능 (타임스탬프 기반 질의)
추가 비용: $0 (별도 API 호출 불필요)

대안: Whisper API (GPT-4o 사용 시)

서비스	모델	단가	비고
OpenAI	Whisper (`gpt-4o-transcribe`)	$0.006 / 분	한국어 지원, 파일 25MB 제한
OpenAI	Whisper (`gpt-4o-mini-transcribe`)	$0.003 / 분	경량 버전, 파일 25MB 제한
OpenAI	Whisper (`gpt-4o-transcribe-diarize`)	$0.006 / 분	화자분리 내장 — pyannote 대체 가능, 25MB 제한

음성 합성 (TTS)

서비스	엔진	단가	무료 티어	비고
Google Cloud	WaveNet	$4 / 100만 글자	월 400만 글자 무료	자연스러운 음성
Google Cloud	Neural2	$16 / 100만 글자	월 100만 글자 무료	고품질
Google Cloud	Chirp 3 HD	$30 / 100만 글자	-	최고 음성 품질, SSML 미지원 → 화면해설 부적합
Google Cloud	Standard	$4 / 100만 글자	월 400만 글자 무료	기본 품질
OpenAI	tts-1	$15 / 100만 글자	-	실시간 최적화
OpenAI	tts-1-hd	$30 / 100만 글자	-	고품질
NAVER	CLOVA Voice Premium	~₩4 / 글자 (약 $0.003)	-	한국어 최적화

PoC 권장: Google Cloud WaveNet (무료 티어 활용 + 합리적 품질/가격 + SSML 지원)

한국어 특화: NAVER CLOVA Voice (자연스러운 한국어, 단 비용 높음)

Chirp 3 HD 제외 권장: SSML 미지원으로 음성 속도/일시정지 제어 불가 — 화면해설의 타이밍 동기화에 부적합

Fine-tuning (모델 갱신)

서비스	모델	학습 비용	추론 비용 (Input/Output)
OpenAI	GPT-4o Fine-tuning	$25.00 / 1M tokens	$3.75 / $15.00 per 1M tokens
OpenAI	GPT-4o-mini Fine-tuning	$3.00 / 1M tokens	$0.30 / $1.20 per 1M tokens
OpenAI	GPT-4.1-mini Fine-tuning	$4.00 / 1M tokens	기본 모델과 동일

PoC 단계: Fine-tuning은 P3 우선순위 (충분한 학습 데이터 축적 후 진행)

Vision Fine-tuning 제약: gpt-4o-2024-08-06 모델만 가능. 인물 사진 포함 학습 데이터 제외. 최소 10개, 권장 50~100개 학습 예시 필요