콘텐츠로 이동

1.3 수집 AI 및 플랫폼


기능:

  • 의원실 PC/클라우드의 파일 변경 실시간 감지
  • 사전 승인 범위 내 자동 업로드
  • 네트워크 장애 시 오프라인 큐잉

아키텍처:

%%{init: {'theme': 'base', 'themeVariables': { 'fontSize': '14px' }}}%%
flowchart LR
    subgraph office["의원실 환경"]
        A1["경량 Agent<br/>(백그라운드)"]
        A2["Cloud Sync<br/>(Drive 등)"]
    end
    
    subgraph infra["수집 인프라"]
        B["메시지 큐<br/>(Kafka/RabbitMQ)"]
        C["수집 처리 서버<br/>• 중복 검사<br/>• 포맷 변환<br/>• 임시 저장"]
        D["AI 처리 파이프라인"]
    end
    
    A1 -->|파일 변경 감지| B
    A2 -->|Webhook 연동| C
    B --> C --> D
    
    style office fill:#fff,stroke:#333,stroke-width:1px
    style infra fill:#f5f5f5,stroke:#666,stroke-width:1px

NER (Named Entity Recognition):

원문: "홍길동 의원이 2024년 3월 15일 산업통상자원위원회에서
반도체특별법 제5조 관련 질의를 진행했다."
추출 결과:
├── 의원명: 홍길동
├── 일시: 2024-03-15
├── 위원회: 산업통상자원위원회
├── 법안명: 반도체특별법
├── 조문: 제5조
└── 활동유형: 질의

OCR + 문서 구조 분석:

  • 스캔 문서의 텍스트 추출
  • 표, 그래프 인식 및 데이터 추출
  • 문서 레이아웃 기반 섹션 분리

STT (Speech-to-Text):

  • 회의 음성의 실시간 텍스트 변환
  • 화자 분리 (Speaker Diarization)
  • 전문 용어 인식 (법률, 정책 도메인)

검증 항목:

검증 유형방법조치
필수 메타데이터작성자, 일시 등 존재 확인누락 시 AI 추정값 제안
파일 무결성체크섬, 포맷 검증손상 파일 재요청
중복 탐지해시 + 의미 유사도중복 시 병합/버전 관리
누락 탐지예상 기록 vs 실제 수집 비교누락 알림 발송

누락 탐지 예시:

[AI 누락 탐지 알림]
감지: 산업통상자원위원회 제5차 회의 (2024.03.15)
회의록은 수집됨, 그러나:
⚠ 발표자료 3건 미수집 (회의록 언급 기준)
⚠ 정부 서면답변 1건 미수집
조치: 위원회 담당자에게 자동 요청 발송


%%{init: {'theme': 'base', 'themeVariables': { 'fontSize': '14px' }}}%%
flowchart TB
    subgraph sources["수집 소스"]
        S1["의원실<br/>에이전트"]
        S2["위원회<br/>시스템"]
        S3["의안정보<br/>시스템"]
        S4["국감자료<br/>시스템"]
        S5["행정문서<br/>시스템"]
    end
    
    subgraph gateway["수집 게이트웨이 (API Gateway)"]
        GW["• 인증/인가  • 트래픽 관리  • 로깅"]
    end
    
    subgraph pipeline["AI 처리 파이프라인"]
        P1["포맷변환<br/>OCR/STT"]
        P2["메타추출<br/>NER/파싱"]
        P3["품질검증<br/>무결성"]
        P4["분류/태깅<br/>AI분류"]
        P1 --> P2 --> P3 --> P4
    end
    
    subgraph storage["저장 계층"]
        D1["원본 저장소<br/>(Object)"]
        D2["메타데이터 DB<br/>(PostgreSQL)"]
        D3["벡터 DB<br/>(임베딩)"]
    end
    
    S1 & S2 & S3 & S4 & S5 --> GW
    GW --> P1
    P4 --> D1 & D2 & D3
    
    style sources fill:#fff,stroke:#333,stroke-width:1px
    style gateway fill:#f5f5f5,stroke:#666,stroke-width:1px
    style pipeline fill:#f5f5f5,stroke:#666,stroke-width:1px
    style storage fill:#fff,stroke:#333,stroke-width:1px

입수 → 처리 → 저장 흐름:

단계처리 내용소요 시간
1. 접수파일 수신, 중복 체크< 1초
2. 변환포맷 통일, OCR/STT10초~5분
3. 추출NER, 메타데이터 추출5~30초
4. 검증품질 검사, 보완 요청< 5초
5. 분류AI 기반 분류/태깅< 5초
6. 저장원본+메타+벡터 저장< 3초
7. 색인검색 색인 업데이트< 10초

주요 연동 인터페이스:

# 의안정보시스템 연동
GET /api/v1/bills
- 신규 법안 목록 조회 (polling)
- Webhook 기반 실시간 알림
# 회의 시스템 연동
POST /api/v1/meetings/{id}/recording
- 회의 영상/음성 업로드
- STT 처리 트리거
# 의원실 에이전트 연동
POST /api/v1/collect/upload
- 파일 청크 업로드
- 메타데이터 첨부
# 기증 자료 연동
POST /api/v1/donation/submit
- 기증 자료 제출
- 검증 상태 조회

보안 영역적용 방안
전송 보안TLS 1.3, 파일 암호화 전송
저장 보안AES-256 암호화, 접근 로그
접근 제어역할 기반 권한 (RBAC), 의원실별 격리
감사 추적모든 수집 행위 로깅, 변경 이력 관리

구분현행To-Be
수집 방식수동 이관, 요청 기반자동 동기화, 자동 수집
메타데이터수작업 입력AI 자동 추출
멀티미디어원본만 보관STT/OCR 텍스트화
품질 관리사후 검수실시간 AI 검증
참여자 부담의원실 협조 필수최소 승인만 필요

“AI가 보이지 않는 곳에서 기록을 수집하고, 정리하고, 검증한다.”