주요 고려사항
주력: Gemini 기반
섹션 제목: “주력: Gemini 기반”- 30분 영상 전체 분석+해설 생성: 예상 처리 시간 3~5분 (비디오 직접 업로드, 프레임 추출 불필요)
- 비디오 업로드 후 ACTIVE 상태까지 폴링 필요 (업로드 처리 시간 발생)
- Gemini 컨텍스트 윈도우: 1,048,576 tokens → 약 1시간 영상까지 단일 호출로 분석 가능
- 1시간 초과 영상은 분할 업로드 후 결과 통합 필요
대안: GPT-4o 기반
섹션 제목: “대안: GPT-4o 기반”- FFmpeg 프레임 추출: c5.xlarge 기준 30분 FHD 영상 ≈ 30~90초
- 프레임 추출 + Vision API + Whisper STT + 해설 생성: 예상 5~10분 (병렬 처리 시)
- FFmpeg 최종 영상 합성 (오디오 믹싱): FHD ≈ 5~10분 (공통)
- 화면해설 품질은 프롬프트 엔지니어링에 크게 의존
- 방송 화면해설 가이드라인(방통위 기준) 반영 필요
- LLM은 화면해설 표준 지식을 보유하지 않음 — 시스템 프롬프트에 화면해설 가이드라인 임베딩 필수:
- 대사/효과음이 있는 구간에서 해설 회피
- 시각 정보만 전달 (주관적 해석 배제)
- 인물의 표정, 동작, 공간 변화 중심 묘사
- 인물/장소명 등 고유명사 사전 관리 기능 필요
- Gemini의 시간적 맥락(temporal context) 이해: 프레임 추출 방식과 달리 동작/움직임을 연속적으로 인식 가능 → 더 자연스러운 화면해설 생성 기대
- Gemini의 1 FPS 기본 샘플링 한계: 고속 동작 장면에서는 세부 동작을 놓칠 수 있음
- 화면해설 타이밍 동기화: Gemini 타임스탬프 기반 질의(MM:SS 형식)로 대사 구간을 피하는 해설 생성 가능
- 한국어 OCR 한계 (GPT-4o 사용 시): GPT-4o Vision의 비라틴 문자 OCR은 정확도가 낮음 → 자막 인식 결과 검수 필수
- 영상 콘텐츠 저작권 관리 (S3 Presigned URL, 접근 제어)
- Gemini API 데이터 정책: Vertex AI 사용 시 고객 데이터가 모델 학습에 사용되지 않음 (Google Cloud Data Processing Terms 적용)
- 영상 업로드 보안: Gemini File API에 업로드된 파일은 48시간 후 자동 삭제 (명시적 삭제도 가능)
- AI API 전송 시 콘텐츠 보안 정책 확인
- 사용자 인증/권한 관리 (JWT + RBAC)
- 대안 (GPT-4o 사용 시): Whisper API 25MB 제한으로 오디오 분할 전송 시 OpenAI 데이터 처리 정책 검토 필요
확장성
섹션 제목: “확장성”- 컨테이너화 (Docker) → 향후 ECS/EKS 배포 대비
- API 설계 시 마이크로서비스 분리 고려
- 이벤트 기반 아키텍처 (SQS/SNS)로 모듈 간 느슨한 결합
- 멀티 AI 모델 지원: Gemini/GPT-4o/Claude 간 전환 가능한 추상화 레이어 설계 권장
알려진 제약사항 요약
섹션 제목: “알려진 제약사항 요약”Gemini 기반 (주력)
섹션 제목: “Gemini 기반 (주력)”| 항목 | 제약 | 대응 방안 |
|---|---|---|
| Gemini 비디오 업로드 | ACTIVE 상태까지 폴링 필요 (업로드 처리 지연) | 비동기 작업 큐로 처리, 상태 폴링 구현 |
| Gemini 토큰 소비 | 258 tokens/초 → 30분 영상 약 50만 tokens | Flash 모델의 낮은 단가로 상쇄 ($0.15/영상) |
| Gemini 1 FPS 샘플링 | 고속 동작 장면에서 세부 동작 누락 가능 | 중요 구간 재분석, 해설 전문가 검수 |
| Gemini 컨텍스트 제한 | 약 1시간 영상까지 (1,048,576 tokens) | 1시간 초과 시 분할 업로드 + 결과 통합 |
| LLM 화면해설 지식 | 방송 화면해설 표준 미보유 | 시스템 프롬프트에 가이드라인 임베딩 |
| Google TTS Chirp 3 HD | SSML 미지원 | WaveNet/Neural2 사용 (SSML 지원) |
GPT-4o 기반 (대안)
섹션 제목: “GPT-4o 기반 (대안)”| 항목 | 제약 | 대응 방안 |
|---|---|---|
| GPT-4o Vision | 영상 직접 처리 불가 | FFmpeg 프레임 추출 파이프라인 구축 |
| GPT-4o Vision | 한국어 OCR 정확도 낮음 | 자막 인식 결과 수동 검수, 전용 OCR 병행 |
| Whisper API | 파일 25MB 업로드 제한 | 오디오 분할 업로드 로직 구현 (pydub 등) |
| pyannote-audio | HuggingFace 토큰 + 이용약관, GPU 권장 | gpt-4o-transcribe-diarize로 대체 |
| GPT-4o Fine-tuning | Vision은 gpt-4o-2024-08-06만, 인물 사진 제외 | PoC에서는 fine-tuning 보류 (P3) |