PoC 구현 우선순위
구현 우선순위
섹션 제목: “구현 우선순위”| 우선순위 | 모듈 | 구현 범위 | 비고 |
|---|---|---|---|
| P0 (필수) | 영상 입력부 | 파일 업로드, 메타데이터 추출 | 1~2주 |
| P0 (필수) | 영상 분석부 | Gemini 2.5 Flash 비디오 직접 분석 (장면/오디오 동시) | 2~3주 |
| P0 (필수) | AI 해설 생성부 | Gemini 기반 화면해설 텍스트 생성 | 1~2주 |
| P1 (핵심) | 해설 데이터 저장부 | PostgreSQL CRUD | 1주 |
| P1 (핵심) | 협업 편집부 | 기본 편집 UI (단일 사용자) | 2~3주 |
| P1 (핵심) | 사용자 제공부 | TTS 합성 + 영상 합성 | 1~2주 |
| P2 (확장) | 편집 결과 저장부 | 버전 관리, 이력 추적 | 1주 |
| P2 (확장) | 협업 편집부 확장 | 다중 사용자 실시간 동시 편집 | 2주 |
| P2 (확장) | GPT-4o 대안 파이프라인 | 프레임 추출 + GPT-4o Vision + Whisper STT (비교 테스트용) | 1~2주 |
| P3 (고도화) | 학습 데이터 생성부 | 편집 데이터 → 학습 데이터 변환 | 1주 |
| P3 (고도화) | AI 모델 갱신부 | Fine-tuning 파이프라인 | 2~3주 |
단계별 설명
섹션 제목: “단계별 설명”P0 - 필수 (4~7주)
섹션 제목: “P0 - 필수 (4~7주)”PoC의 핵심 기능으로, 영상을 입력받아 AI가 화면해설 초안을 생성하는 파이프라인을 구현합니다.
- 영상 파일 업로드 및 메타데이터 추출
- Gemini 2.5 Flash API에 비디오 파일 직접 업로드 → 장면 분석 + 오디오(대사) 동시 분석
- 비디오+오디오 분석 결과를 바탕으로 화면해설 텍스트 자동 생성
- 대사 구간을 피한 해설 삽입 위치 자동 결정 (타임스탬프 기반)
기존 대비 단순화: FFmpeg 프레임 추출, Whisper STT 연동이 불필요하여 P0 구현 복잡도가 크게 감소합니다.
P1 - 핵심 (4~6주)
섹션 제목: “P1 - 핵심 (4~6주)”생성된 해설을 편집하고 최종 결과물을 제공하는 기능을 구현합니다.
- 해설 데이터의 CRUD 기능 (PostgreSQL)
- 단일 사용자 기반 편집 UI
- TTS 합성 및 최종 영상 합성
P2 - 확장 (4~5주)
섹션 제목: “P2 - 확장 (4~5주)”협업 기능을 강화하고, GPT-4o 대안 파이프라인을 비교 테스트용으로 구현합니다.
- 편집 버전 관리 및 이력 추적
- CRDT 기반 다중 사용자 실시간 동시 편집
- GPT-4o Vision + Whisper 대안 파이프라인 (Gemini와 품질/비용 비교 테스트)
P3 - 고도화 (3~4주)
섹션 제목: “P3 - 고도화 (3~4주)”AI 모델의 지속적 개선을 위한 학습 파이프라인을 구축합니다.
- 편집된 결과물을 학습 데이터로 자동 변환
- Fine-tuning API를 활용한 모델 개선 파이프라인