콘텐츠로 이동

주요 고려사항

성능

주력: Gemini 기반

30분 영상 전체 분석+해설 생성: 예상 처리 시간 3~5분 (비디오 직접 업로드, 프레임 추출 불필요)
비디오 업로드 후 ACTIVE 상태까지 폴링 필요 (업로드 처리 시간 발생)
Gemini 컨텍스트 윈도우: 1,048,576 tokens → 약 1시간 영상까지 단일 호출로 분석 가능
1시간 초과 영상은 분할 업로드 후 결과 통합 필요

대안: GPT-4o 기반

FFmpeg 프레임 추출: c5.xlarge 기준 30분 FHD 영상 ≈ 30~90초
프레임 추출 + Vision API + Whisper STT + 해설 생성: 예상 5~10분 (병렬 처리 시)
FFmpeg 최종 영상 합성 (오디오 믹싱): FHD ≈ 5~10분 (공통)

품질

화면해설 품질은 프롬프트 엔지니어링에 크게 의존
방송 화면해설 가이드라인(방통위 기준) 반영 필요
LLM은 화면해설 표준 지식을 보유하지 않음 — 시스템 프롬프트에 화면해설 가이드라인 임베딩 필수:
- 대사/효과음이 있는 구간에서 해설 회피
- 시각 정보만 전달 (주관적 해석 배제)
- 인물의 표정, 동작, 공간 변화 중심 묘사
인물/장소명 등 고유명사 사전 관리 기능 필요
Gemini의 시간적 맥락(temporal context) 이해: 프레임 추출 방식과 달리 동작/움직임을 연속적으로 인식 가능 → 더 자연스러운 화면해설 생성 기대
Gemini의 1 FPS 기본 샘플링 한계: 고속 동작 장면에서는 세부 동작을 놓칠 수 있음
화면해설 타이밍 동기화: Gemini 타임스탬프 기반 질의(MM:SS 형식)로 대사 구간을 피하는 해설 생성 가능
한국어 OCR 한계 (GPT-4o 사용 시): GPT-4o Vision의 비라틴 문자 OCR은 정확도가 낮음 → 자막 인식 결과 검수 필수

보안

영상 콘텐츠 저작권 관리 (S3 Presigned URL, 접근 제어)
Gemini API 데이터 정책: Vertex AI 사용 시 고객 데이터가 모델 학습에 사용되지 않음 (Google Cloud Data Processing Terms 적용)
영상 업로드 보안: Gemini File API에 업로드된 파일은 48시간 후 자동 삭제 (명시적 삭제도 가능)
AI API 전송 시 콘텐츠 보안 정책 확인
사용자 인증/권한 관리 (JWT + RBAC)
대안 (GPT-4o 사용 시): Whisper API 25MB 제한으로 오디오 분할 전송 시 OpenAI 데이터 처리 정책 검토 필요

확장성

컨테이너화 (Docker) → 향후 ECS/EKS 배포 대비
API 설계 시 마이크로서비스 분리 고려
이벤트 기반 아키텍처 (SQS/SNS)로 모듈 간 느슨한 결합
멀티 AI 모델 지원: Gemini/GPT-4o/Claude 간 전환 가능한 추상화 레이어 설계 권장

알려진 제약사항 요약

Gemini 기반 (주력)

항목	제약	대응 방안
Gemini 비디오 업로드	ACTIVE 상태까지 폴링 필요 (업로드 처리 지연)	비동기 작업 큐로 처리, 상태 폴링 구현
Gemini 토큰 소비	258 tokens/초 → 30분 영상 약 50만 tokens	Flash 모델의 낮은 단가로 상쇄 ($0.15/영상)
Gemini 1 FPS 샘플링	고속 동작 장면에서 세부 동작 누락 가능	중요 구간 재분석, 해설 전문가 검수
Gemini 컨텍스트 제한	약 1시간 영상까지 (1,048,576 tokens)	1시간 초과 시 분할 업로드 + 결과 통합
LLM 화면해설 지식	방송 화면해설 표준 미보유	시스템 프롬프트에 가이드라인 임베딩
Google TTS Chirp 3 HD	SSML 미지원	WaveNet/Neural2 사용 (SSML 지원)

GPT-4o 기반 (대안)

항목	제약	대응 방안
GPT-4o Vision	영상 직접 처리 불가	FFmpeg 프레임 추출 파이프라인 구축
GPT-4o Vision	한국어 OCR 정확도 낮음	자막 인식 결과 수동 검수, 전용 OCR 병행
Whisper API	파일 25MB 업로드 제한	오디오 분할 업로드 로직 구현 (pydub 등)
pyannote-audio	HuggingFace 토큰 + 이용약관, GPU 권장	`gpt-4o-transcribe-diarize`로 대체
GPT-4o Fine-tuning	Vision은 `gpt-4o-2024-08-06`만, 인물 사진 제외	PoC에서는 fine-tuning 보류 (P3)