P0 필수 모듈 개발 비용

P0 개요

PoC의 핵심인 “영상 입력 → AI 분석 → 해설 텍스트 생성” 파이프라인을 구축합니다. Gemini 2.5 Flash의 네이티브 비디오 입력 기능으로 FFmpeg 프레임 추출과 Whisper STT가 불필요하여, 기존 GPT-4o 기반 대비 구현 복잡도가 크게 감소합니다.

항목	내용
우선순위	P0 — 필수
예상 기간	4~7주
핵심 목표	영상을 넣으면 화면해설 초안이 나오는 End-to-End 파이프라인

모듈별 상세

1. 영상 입력부 (1~2주)

항목	내용
기간	1~2주 (0.23~0.45 M/M)
투입 인력	백엔드 개발자 1명
적용 단가	고급 ₩11,500,000/M

구현 범위

기능	상세	복잡도
파일 업로드 API	FastAPI Multipart 업로드, 대용량 파일 청크 처리 (2~3GB)	중
S3 연동	boto3 기반 S3 업로드, Presigned URL 다운로드	하
메타데이터 추출	FFmpeg subprocess로 해상도, 길이, 코덱, 비트레이트 추출	하
작업 큐 등록	Celery Task 생성, Redis 브로커 연동	하
상태 관리 API	업로드/처리 상태 조회 REST API	하

비용 산출

항목	산출 근거	금액
인건비 (최소)	0.23 M/M × ₩11,500,000	₩2,645,000
인건비 (최대)	0.45 M/M × ₩11,500,000	₩5,175,000
예비비 (10%)		₩265,000 ~ ₩518,000
소계		₩2,910,000 ~ ₩5,693,000

2. 영상 분석부 (2~3주)

항목	내용
기간	2~3주 (0.45~0.68 M/M)
투입 인력	AI/ML 엔지니어 1명
적용 단가	특급 ₩14,000,000/M

구현 범위

기능	상세	복잡도
Gemini API 연동	Google AI SDK / Vertex AI SDK 초기 설정, 인증	하
비디오 파일 업로드	Gemini File API로 MP4 직접 업로드 (대용량 파일 처리)	중
업로드 폴링	파일 처리 완료 대기 (비동기 폴링 로직)	중
비디오+오디오 분석	장면 분석 프롬프트 설계, 타임스탬프 기반 분석 결과 추출	상
분석 결과 파싱	JSON 구조화된 분석 결과 파싱 및 검증	중
대사 구간 추출	오디오 분석을 통한 대사/음성 타이밍 추출	상
에러 핸들링	API Rate Limit, 타임아웃, 재시도 로직	중
Celery 비동기 처리	장시간 분석 작업의 비동기 처리 및 결과 콜백	중

비용 산출

항목	산출 근거	금액
인건비 (최소)	0.45 M/M × ₩14,000,000	₩6,300,000
인건비 (최대)	0.68 M/M × ₩14,000,000	₩9,520,000
예비비 (10%)		₩630,000 ~ ₩952,000
소계		₩6,930,000 ~ ₩10,472,000

핵심 난이도 요소: Gemini의 비디오 분석 결과에서 정확한 타임스탬프를 추출하고, 대사 구간과 비(非)대사 구간을 구분하는 로직이 이 모듈의 핵심 도전 과제입니다. 프롬프트 엔지니어링에 상당한 반복 실험이 필요합니다.

3. AI 해설 생성부 (1~2주)

항목	내용
기간	1~2주 (0.23~0.45 M/M)
투입 인력	AI/ML 엔지니어 1명
적용 단가	특급 ₩14,000,000/M

구현 범위

기능	상세	복잡도
해설 생성 프롬프트	화면해설 스타일 가이드 반영, 장면별 해설 텍스트 생성	상
타이밍 동기화	대사 구간을 피한 해설 삽입 위치 자동 결정	상
출력 포맷	JSON/SRT 형식의 타임코드 + 해설 텍스트 구조화	중
품질 검증	해설 길이, 대사 중복 여부, 타이밍 유효성 검증	중
파이프라인 연결	영상 분석 결과 → 해설 생성 → 저장 흐름 자동화	하

비용 산출

항목	산출 근거	금액
인건비 (최소)	0.23 M/M × ₩14,000,000	₩3,220,000
인건비 (최대)	0.45 M/M × ₩14,000,000	₩6,300,000
예비비 (10%)		₩322,000 ~ ₩630,000
소계		₩3,542,000 ~ ₩6,930,000

4. 공통 인프라 구축 (1~2주)

항목	내용
기간	1~2주 (0.23~0.45 M/M)
투입 인력	백엔드 개발자 1명 (인프라 겸임)
적용 단가	고급 ₩11,500,000/M

구현 범위

기능	상세	복잡도
AWS 인프라	EC2, S3, RDS, ElastiCache 초기 구성 (IaC 또는 수동)	중
CI/CD 파이프라인	GitHub Actions 기반 빌드/배포 자동화	중
API 서버 기반	FastAPI 프로젝트 구조, 인증/인가 기본 설정	하
환경 설정	개발/스테이징/프로덕션 환경 분리, 환경 변수 관리	하
로깅/모니터링	CloudWatch 기본 설정, 구조화 로깅	하

비용 산출

항목	산출 근거	금액
인건비 (최소)	0.23 M/M × ₩11,500,000	₩2,645,000
인건비 (최대)	0.45 M/M × ₩11,500,000	₩5,175,000
예비비 (10%)		₩265,000 ~ ₩518,000
소계		₩2,910,000 ~ ₩5,693,000

P0 비용 요약

모듈	기간	인력	최소 비용	최대 비용
영상 입력부	1~2주	백엔드 (고급)	₩2,910,000	₩5,693,000
영상 분석부	2~3주	AI/ML (특급)	₩6,930,000	₩10,472,000
AI 해설 생성부	1~2주	AI/ML (특급)	₩3,542,000	₩6,930,000
공통 인프라	1~2주	백엔드 (고급)	₩2,910,000	₩5,693,000
P0 합계	4~7주		₩16,292,000	₩28,788,000

통화	최소	최대
KRW	₩16,292,000	₩28,788,000
USD	~$11,806	~$20,861

투입 공수: 총 1.14~2.03 M/M (AI/ML 0.68~1.13 M/M + 백엔드 0.46~0.90 M/M)

Gemini 효과: GPT-4o 기반이었다면 프레임 추출부와 STT 연동 모듈이 추가로 필요하여 P0 기간이 6~10주, 비용이 30~40% 증가할 것으로 추정됩니다.

P0 필수 모듈 개발 비용

이 문서 인쇄

섹션 전체 인쇄

P0 개요

모듈별 상세

1. 영상 입력부 (1~2주)

구현 범위

비용 산출

2. 영상 분석부 (2~3주)

구현 범위

비용 산출

3. AI 해설 생성부 (1~2주)

구현 범위

비용 산출

4. 공통 인프라 구축 (1~2주)

구현 범위

비용 산출

P0 비용 요약