콘텐츠로 이동

PoC 구현 우선순위

우선순위모듈구현 범위비고
P0 (필수)영상 입력부파일 업로드, 메타데이터 추출1~2주
P0 (필수)영상 분석부Gemini 2.5 Flash 비디오 직접 분석 (장면/오디오 동시)2~3주
P0 (필수)AI 해설 생성부Gemini 기반 화면해설 텍스트 생성1~2주
P1 (핵심)해설 데이터 저장부PostgreSQL CRUD1주
P1 (핵심)협업 편집부기본 편집 UI (단일 사용자)2~3주
P1 (핵심)사용자 제공부TTS 합성 + 영상 합성1~2주
P2 (확장)편집 결과 저장부버전 관리, 이력 추적1주
P2 (확장)협업 편집부 확장다중 사용자 실시간 동시 편집2주
P2 (확장)GPT-4o 대안 파이프라인프레임 추출 + GPT-4o Vision + Whisper STT (비교 테스트용)1~2주
P3 (고도화)학습 데이터 생성부편집 데이터 → 학습 데이터 변환1주
P3 (고도화)AI 모델 갱신부Fine-tuning 파이프라인2~3주

PoC의 핵심 기능으로, 영상을 입력받아 AI가 화면해설 초안을 생성하는 파이프라인을 구현합니다.

  • 영상 파일 업로드 및 메타데이터 추출
  • Gemini 2.5 Flash API에 비디오 파일 직접 업로드 → 장면 분석 + 오디오(대사) 동시 분석
  • 비디오+오디오 분석 결과를 바탕으로 화면해설 텍스트 자동 생성
  • 대사 구간을 피한 해설 삽입 위치 자동 결정 (타임스탬프 기반)

기존 대비 단순화: FFmpeg 프레임 추출, Whisper STT 연동이 불필요하여 P0 구현 복잡도가 크게 감소합니다.

생성된 해설을 편집하고 최종 결과물을 제공하는 기능을 구현합니다.

  • 해설 데이터의 CRUD 기능 (PostgreSQL)
  • 단일 사용자 기반 편집 UI
  • TTS 합성 및 최종 영상 합성

협업 기능을 강화하고, GPT-4o 대안 파이프라인을 비교 테스트용으로 구현합니다.

  • 편집 버전 관리 및 이력 추적
  • CRDT 기반 다중 사용자 실시간 동시 편집
  • GPT-4o Vision + Whisper 대안 파이프라인 (Gemini와 품질/비용 비교 테스트)

AI 모델의 지속적 개선을 위한 학습 파이프라인을 구축합니다.

  • 편집된 결과물을 학습 데이터로 자동 변환
  • Fine-tuning API를 활용한 모델 개선 파이프라인