콘텐츠로 이동

주요 고려사항

  • 30분 영상 전체 분석+해설 생성: 예상 처리 시간 3~5분 (비디오 직접 업로드, 프레임 추출 불필요)
  • 비디오 업로드 후 ACTIVE 상태까지 폴링 필요 (업로드 처리 시간 발생)
  • Gemini 컨텍스트 윈도우: 1,048,576 tokens → 약 1시간 영상까지 단일 호출로 분석 가능
  • 1시간 초과 영상은 분할 업로드 후 결과 통합 필요
  • FFmpeg 프레임 추출: c5.xlarge 기준 30분 FHD 영상 ≈ 30~90초
  • 프레임 추출 + Vision API + Whisper STT + 해설 생성: 예상 5~10분 (병렬 처리 시)
  • FFmpeg 최종 영상 합성 (오디오 믹싱): FHD ≈ 5~10분 (공통)
  • 화면해설 품질은 프롬프트 엔지니어링에 크게 의존
  • 방송 화면해설 가이드라인(방통위 기준) 반영 필요
  • LLM은 화면해설 표준 지식을 보유하지 않음 — 시스템 프롬프트에 화면해설 가이드라인 임베딩 필수:
    • 대사/효과음이 있는 구간에서 해설 회피
    • 시각 정보만 전달 (주관적 해석 배제)
    • 인물의 표정, 동작, 공간 변화 중심 묘사
  • 인물/장소명 등 고유명사 사전 관리 기능 필요
  • Gemini의 시간적 맥락(temporal context) 이해: 프레임 추출 방식과 달리 동작/움직임을 연속적으로 인식 가능 → 더 자연스러운 화면해설 생성 기대
  • Gemini의 1 FPS 기본 샘플링 한계: 고속 동작 장면에서는 세부 동작을 놓칠 수 있음
  • 화면해설 타이밍 동기화: Gemini 타임스탬프 기반 질의(MM:SS 형식)로 대사 구간을 피하는 해설 생성 가능
  • 한국어 OCR 한계 (GPT-4o 사용 시): GPT-4o Vision의 비라틴 문자 OCR은 정확도가 낮음 → 자막 인식 결과 검수 필수
  • 영상 콘텐츠 저작권 관리 (S3 Presigned URL, 접근 제어)
  • Gemini API 데이터 정책: Vertex AI 사용 시 고객 데이터가 모델 학습에 사용되지 않음 (Google Cloud Data Processing Terms 적용)
  • 영상 업로드 보안: Gemini File API에 업로드된 파일은 48시간 후 자동 삭제 (명시적 삭제도 가능)
  • AI API 전송 시 콘텐츠 보안 정책 확인
  • 사용자 인증/권한 관리 (JWT + RBAC)
  • 대안 (GPT-4o 사용 시): Whisper API 25MB 제한으로 오디오 분할 전송 시 OpenAI 데이터 처리 정책 검토 필요
  • 컨테이너화 (Docker) → 향후 ECS/EKS 배포 대비
  • API 설계 시 마이크로서비스 분리 고려
  • 이벤트 기반 아키텍처 (SQS/SNS)로 모듈 간 느슨한 결합
  • 멀티 AI 모델 지원: Gemini/GPT-4o/Claude 간 전환 가능한 추상화 레이어 설계 권장
항목제약대응 방안
Gemini 비디오 업로드ACTIVE 상태까지 폴링 필요 (업로드 처리 지연)비동기 작업 큐로 처리, 상태 폴링 구현
Gemini 토큰 소비258 tokens/초 → 30분 영상 약 50만 tokensFlash 모델의 낮은 단가로 상쇄 ($0.15/영상)
Gemini 1 FPS 샘플링고속 동작 장면에서 세부 동작 누락 가능중요 구간 재분석, 해설 전문가 검수
Gemini 컨텍스트 제한약 1시간 영상까지 (1,048,576 tokens)1시간 초과 시 분할 업로드 + 결과 통합
LLM 화면해설 지식방송 화면해설 표준 미보유시스템 프롬프트에 가이드라인 임베딩
Google TTS Chirp 3 HDSSML 미지원WaveNet/Neural2 사용 (SSML 지원)
항목제약대응 방안
GPT-4o Vision영상 직접 처리 불가FFmpeg 프레임 추출 파이프라인 구축
GPT-4o Vision한국어 OCR 정확도 낮음자막 인식 결과 수동 검수, 전용 OCR 병행
Whisper API파일 25MB 업로드 제한오디오 분할 업로드 로직 구현 (pydub 등)
pyannote-audioHuggingFace 토큰 + 이용약관, GPU 권장gpt-4o-transcribe-diarize로 대체
GPT-4o Fine-tuningVision은 gpt-4o-2024-08-06만, 인물 사진 제외PoC에서는 fine-tuning 보류 (P3)