PoC 구현 우선순위

구현 우선순위

우선순위	모듈	구현 범위	비고
P0 (필수)	영상 입력부	파일 업로드, 메타데이터 추출	1~2주
P0 (필수)	영상 분석부	Gemini 2.5 Flash 비디오 직접 분석 (장면/오디오 동시)	2~3주
P0 (필수)	AI 해설 생성부	Gemini 기반 화면해설 텍스트 생성	1~2주
P1 (핵심)	해설 데이터 저장부	PostgreSQL CRUD	1주
P1 (핵심)	협업 편집부	기본 편집 UI (단일 사용자)	2~3주
P1 (핵심)	사용자 제공부	TTS 합성 + 영상 합성	1~2주
P2 (확장)	편집 결과 저장부	버전 관리, 이력 추적	1주
P2 (확장)	협업 편집부 확장	다중 사용자 실시간 동시 편집	2주
P2 (확장)	GPT-4o 대안 파이프라인	프레임 추출 + GPT-4o Vision + Whisper STT (비교 테스트용)	1~2주
P3 (고도화)	학습 데이터 생성부	편집 데이터 → 학습 데이터 변환	1주
P3 (고도화)	AI 모델 갱신부	Fine-tuning 파이프라인	2~3주

PoC의 핵심 기능으로, 영상을 입력받아 AI가 화면해설 초안을 생성하는 파이프라인을 구현합니다.

기존 대비 단순화: FFmpeg 프레임 추출, Whisper STT 연동이 불필요하여 P0 구현 복잡도가 크게 감소합니다.

생성된 해설을 편집하고 최종 결과물을 제공하는 기능을 구현합니다.

협업 기능을 강화하고, GPT-4o 대안 파이프라인을 비교 테스트용으로 구현합니다.

AI 모델의 지속적 개선을 위한 학습 파이프라인을 구축합니다.