콘텐츠로 이동

서비스별 단가표

주력: Google Gemini (Vertex AI, Standard Tier)

섹션 제목: “주력: Google Gemini (Vertex AI, Standard Tier)”
서비스모델Input $/1M tokensOutput $/1M tokens용도
GoogleGemini 2.5 Flash$0.30 (text/image/video)$2.50영상 분석 + 해설 생성 (주력)
GoogleGemini 2.5 Flash-Lite$0.10$0.40초경량, 최저가 옵션
GoogleGemini 2.5 Pro (≤200K)$1.25$10.00최고 품질 (복잡한 장면)
GoogleGemini 2.5 Pro (>200K)$2.50$15.00긴 영상 (200K 토큰 초과 시)
  • 오디오 입력 단가: Flash $1.00/1M, Flash-Lite $0.30/1M, Pro $1.25/1M (비디오와 별도 산정)
  • Context Caching: 캐시된 입력 토큰은 표준 대비 75% 할인, 캐시 저장 비용 Flash $1.00/1M tokens/hr
  • Batch/Flex Tier: 표준 대비 50% 할인 (비실시간 처리 시)
서비스모델Input ($/1M tokens)Output ($/1M tokens)용도
OpenAIGPT-4o$2.50$10.00영상 분석 + 해설 생성 (대안)
OpenAIGPT-4o-mini$0.15$0.60경량 작업, 보조 분석
OpenAIGPT-4.1$2.00$8.00대안 (코딩 특화)
OpenAIGPT-4.1-mini$0.40$1.60비용 효율적 대안
OpenAIGPT-4.1-nano$0.10$0.40초경량 작업
AnthropicClaude Sonnet 4 (claude-sonnet-4-20250514)$3.00$15.00해설 생성 대안 (고품질)
AnthropicClaude Haiku 4.5$1.00$5.00경량 작업 대안

참고: GPT-4o / Claude는 영상 파일을 직접 입력할 수 없으며, FFmpeg로 추출한 프레임 이미지를 사용합니다.

Gemini는 영상 파일을 직접 업로드하여 분석합니다. 별도의 프레임 추출 과정이 필요 없습니다.

입력 유형토큰 산정비고
비디오258 tokens/초 (기본 해상도)1 FPS 자동 샘플링
비디오 (저해상도)100 tokens/초mediaResolution: low 설정 시
오디오 (비디오 내장)25 tokens/초비디오 분석 시 자동 포함
이미지258 tokens/장개별 이미지 입력 시
구성계산토큰 수입력 비용 (Flash)
비디오만1,800초 × 258464,400$0.139
비디오 + 오디오1,800초 × (258+25)509,400$0.153 + 오디오 $0.045 = $0.198
비디오 (저해상도)1,800초 × 100180,000$0.054
  • Gemini 컨텍스트 윈도우: 1,048,576 tokens (약 1시간 영상 분석 가능)
  • PoC 권장: 기본 해상도(258 tokens/초) 사용 → 품질 확인 후 필요시 저해상도 전환

대안: GPT-4o Vision 프레임 토큰 (GPT-4o 사용 시)

섹션 제목: “대안: GPT-4o Vision 프레임 토큰 (GPT-4o 사용 시)”

GPT-4o Vision은 FFmpeg로 추출한 정지 이미지를 개별 입력합니다.

모드해상도타일 수토큰 수프레임당 비용 (Input)
Low detail해상도 무관-85 tokens (고정)$0.0002
High detail512x5121타일255 tokens$0.0006
High detail768x7684타일765 tokens$0.0019
High detail1920x1080 (FHD)6타일1,105 tokens$0.0028
High detail3840x2160 (4K)6타일1,105 tokens$0.0028
  • High detail 계산 방식: 이미지를 최단변 768px로 리사이즈 → 512x512 타일로 분할 → 타일당 170 tokens + base 85 tokens
  • 4K 이미지는 내부적으로 FHD 수준으로 다운스케일되므로 토큰 수 동일
접근 방식입력 토큰입력 비용FFmpeg 필요비고
Gemini 2.5 Flash (비디오 직접)509,400$0.198불필요비디오+오디오 동시, 시간적 맥락 이해
Gemini 2.5 Flash-Lite509,400$0.096불필요최저가
Gemini 2.5 Pro509,400$0.637불필요최고 품질
GPT-4o + 프레임 추출 (low detail)23,100$0.058필수60프레임 × 385 tokens
GPT-4o + 프레임 추출 (high detail)84,300$0.211필수60프레임 × 1,405 tokens

참고: GPT-4o의 입력 토큰 수는 적지만, 별도 Whisper STT 비용($0.006/분 × 30분 = $0.18)과 FFmpeg 처리 비용이 추가됩니다. Gemini는 비디오+오디오를 단일 호출로 처리하므로 총 비용과 파이프라인 복잡도에서 유리합니다.

Gemini 비디오 분석 시 오디오가 자동으로 포함되므로, 별도 STT 서비스가 불필요합니다.

  • 오디오 토큰: 25 tokens/초 (비디오 분석 비용에 포함)
  • 대사 타이밍 추출, 화자 구분 가능 (타임스탬프 기반 질의)
  • 추가 비용: $0 (별도 API 호출 불필요)
서비스모델단가비고
OpenAIWhisper (gpt-4o-transcribe)$0.006 / 분한국어 지원, 파일 25MB 제한
OpenAIWhisper (gpt-4o-mini-transcribe)$0.003 / 분경량 버전, 파일 25MB 제한
OpenAIWhisper (gpt-4o-transcribe-diarize)$0.006 / 분화자분리 내장 — pyannote 대체 가능, 25MB 제한
서비스엔진단가무료 티어비고
Google CloudWaveNet$4 / 100만 글자월 400만 글자 무료자연스러운 음성
Google CloudNeural2$16 / 100만 글자월 100만 글자 무료고품질
Google CloudChirp 3 HD$30 / 100만 글자-최고 음성 품질, SSML 미지원 → 화면해설 부적합
Google CloudStandard$4 / 100만 글자월 400만 글자 무료기본 품질
OpenAItts-1$15 / 100만 글자-실시간 최적화
OpenAItts-1-hd$30 / 100만 글자-고품질
NAVERCLOVA Voice Premium~₩4 / 글자 (약 $0.003)-한국어 최적화

PoC 권장: Google Cloud WaveNet (무료 티어 활용 + 합리적 품질/가격 + SSML 지원)

한국어 특화: NAVER CLOVA Voice (자연스러운 한국어, 단 비용 높음)

Chirp 3 HD 제외 권장: SSML 미지원으로 음성 속도/일시정지 제어 불가 — 화면해설의 타이밍 동기화에 부적합

서비스모델학습 비용추론 비용 (Input/Output)
OpenAIGPT-4o Fine-tuning$25.00 / 1M tokens$3.75 / $15.00 per 1M tokens
OpenAIGPT-4o-mini Fine-tuning$3.00 / 1M tokens$0.30 / $1.20 per 1M tokens
OpenAIGPT-4.1-mini Fine-tuning$4.00 / 1M tokens기본 모델과 동일

PoC 단계: Fine-tuning은 P3 우선순위 (충분한 학습 데이터 축적 후 진행)

Vision Fine-tuning 제약: gpt-4o-2024-08-06 모델만 가능. 인물 사진 포함 학습 데이터 제외. 최소 10개, 권장 50~100개 학습 예시 필요