PoC의 핵심인 “영상 입력 → AI 분석 → 해설 텍스트 생성” 파이프라인을 구축합니다. Gemini 2.5 Flash의 네이티브 비디오 입력 기능으로 FFmpeg 프레임 추출과 Whisper STT가 불필요하여, 기존 GPT-4o 기반 대비 구현 복잡도가 크게 감소합니다.
| 항목 | 내용 |
|---|
| 우선순위 | P0 — 필수 |
| 예상 기간 | 4~7주 |
| 핵심 목표 | 영상을 넣으면 화면해설 초안이 나오는 End-to-End 파이프라인 |
| 항목 | 내용 |
|---|
| 기간 | 1~2주 (0.23~0.45 M/M) |
| 투입 인력 | 백엔드 개발자 1명 |
| 적용 단가 | 고급 ₩11,500,000/M |
| 기능 | 상세 | 복잡도 |
|---|
| 파일 업로드 API | FastAPI Multipart 업로드, 대용량 파일 청크 처리 (2~3GB) | 중 |
| S3 연동 | boto3 기반 S3 업로드, Presigned URL 다운로드 | 하 |
| 메타데이터 추출 | FFmpeg subprocess로 해상도, 길이, 코덱, 비트레이트 추출 | 하 |
| 작업 큐 등록 | Celery Task 생성, Redis 브로커 연동 | 하 |
| 상태 관리 API | 업로드/처리 상태 조회 REST API | 하 |
| 항목 | 산출 근거 | 금액 |
|---|
| 인건비 (최소) | 0.23 M/M × ₩11,500,000 | ₩2,645,000 |
| 인건비 (최대) | 0.45 M/M × ₩11,500,000 | ₩5,175,000 |
| 예비비 (10%) | | ₩265,000 ~ ₩518,000 |
| 소계 | | ₩2,910,000 ~ ₩5,693,000 |
| 항목 | 내용 |
|---|
| 기간 | 2~3주 (0.45~0.68 M/M) |
| 투입 인력 | AI/ML 엔지니어 1명 |
| 적용 단가 | 특급 ₩14,000,000/M |
| 기능 | 상세 | 복잡도 |
|---|
| Gemini API 연동 | Google AI SDK / Vertex AI SDK 초기 설정, 인증 | 하 |
| 비디오 파일 업로드 | Gemini File API로 MP4 직접 업로드 (대용량 파일 처리) | 중 |
| 업로드 폴링 | 파일 처리 완료 대기 (비동기 폴링 로직) | 중 |
| 비디오+오디오 분석 | 장면 분석 프롬프트 설계, 타임스탬프 기반 분석 결과 추출 | 상 |
| 분석 결과 파싱 | JSON 구조화된 분석 결과 파싱 및 검증 | 중 |
| 대사 구간 추출 | 오디오 분석을 통한 대사/음성 타이밍 추출 | 상 |
| 에러 핸들링 | API Rate Limit, 타임아웃, 재시도 로직 | 중 |
| Celery 비동기 처리 | 장시간 분석 작업의 비동기 처리 및 결과 콜백 | 중 |
| 항목 | 산출 근거 | 금액 |
|---|
| 인건비 (최소) | 0.45 M/M × ₩14,000,000 | ₩6,300,000 |
| 인건비 (최대) | 0.68 M/M × ₩14,000,000 | ₩9,520,000 |
| 예비비 (10%) | | ₩630,000 ~ ₩952,000 |
| 소계 | | ₩6,930,000 ~ ₩10,472,000 |
핵심 난이도 요소: Gemini의 비디오 분석 결과에서 정확한 타임스탬프를 추출하고, 대사 구간과 비(非)대사 구간을 구분하는 로직이 이 모듈의 핵심 도전 과제입니다. 프롬프트 엔지니어링에 상당한 반복 실험이 필요합니다.
| 항목 | 내용 |
|---|
| 기간 | 1~2주 (0.23~0.45 M/M) |
| 투입 인력 | AI/ML 엔지니어 1명 |
| 적용 단가 | 특급 ₩14,000,000/M |
| 기능 | 상세 | 복잡도 |
|---|
| 해설 생성 프롬프트 | 화면해설 스타일 가이드 반영, 장면별 해설 텍스트 생성 | 상 |
| 타이밍 동기화 | 대사 구간을 피한 해설 삽입 위치 자동 결정 | 상 |
| 출력 포맷 | JSON/SRT 형식의 타임코드 + 해설 텍스트 구조화 | 중 |
| 품질 검증 | 해설 길이, 대사 중복 여부, 타이밍 유효성 검증 | 중 |
| 파이프라인 연결 | 영상 분석 결과 → 해설 생성 → 저장 흐름 자동화 | 하 |
| 항목 | 산출 근거 | 금액 |
|---|
| 인건비 (최소) | 0.23 M/M × ₩14,000,000 | ₩3,220,000 |
| 인건비 (최대) | 0.45 M/M × ₩14,000,000 | ₩6,300,000 |
| 예비비 (10%) | | ₩322,000 ~ ₩630,000 |
| 소계 | | ₩3,542,000 ~ ₩6,930,000 |
| 항목 | 내용 |
|---|
| 기간 | 1~2주 (0.23~0.45 M/M) |
| 투입 인력 | 백엔드 개발자 1명 (인프라 겸임) |
| 적용 단가 | 고급 ₩11,500,000/M |
| 기능 | 상세 | 복잡도 |
|---|
| AWS 인프라 | EC2, S3, RDS, ElastiCache 초기 구성 (IaC 또는 수동) | 중 |
| CI/CD 파이프라인 | GitHub Actions 기반 빌드/배포 자동화 | 중 |
| API 서버 기반 | FastAPI 프로젝트 구조, 인증/인가 기본 설정 | 하 |
| 환경 설정 | 개발/스테이징/프로덕션 환경 분리, 환경 변수 관리 | 하 |
| 로깅/모니터링 | CloudWatch 기본 설정, 구조화 로깅 | 하 |
| 항목 | 산출 근거 | 금액 |
|---|
| 인건비 (최소) | 0.23 M/M × ₩11,500,000 | ₩2,645,000 |
| 인건비 (최대) | 0.45 M/M × ₩11,500,000 | ₩5,175,000 |
| 예비비 (10%) | | ₩265,000 ~ ₩518,000 |
| 소계 | | ₩2,910,000 ~ ₩5,693,000 |
| 모듈 | 기간 | 인력 | 최소 비용 | 최대 비용 |
|---|
| 영상 입력부 | 1~2주 | 백엔드 (고급) | ₩2,910,000 | ₩5,693,000 |
| 영상 분석부 | 2~3주 | AI/ML (특급) | ₩6,930,000 | ₩10,472,000 |
| AI 해설 생성부 | 1~2주 | AI/ML (특급) | ₩3,542,000 | ₩6,930,000 |
| 공통 인프라 | 1~2주 | 백엔드 (고급) | ₩2,910,000 | ₩5,693,000 |
| P0 합계 | 4~7주 | | ₩16,292,000 | ₩28,788,000 |
| 통화 | 최소 | 최대 |
|---|
| KRW | ₩16,292,000 | ₩28,788,000 |
| USD | ~$11,806 | ~$20,861 |
투입 공수: 총 1.14~2.03 M/M (AI/ML 0.68~1.13 M/M + 백엔드 0.46~0.90 M/M)
Gemini 효과: GPT-4o 기반이었다면 프레임 추출부와 STT 연동 모듈이 추가로 필요하여 P0 기간이 6~10주, 비용이 30~40% 증가할 것으로 추정됩니다.