| 계층 | 기술 | 용도 |
|---|
| 임베딩 모델 | KoSimCSE, multilingual-e5, BGE-M3 | 한국어 문서 벡터화 |
| LLM | HyperCLOVA X, KoAlpaca, KULLM, 온프레미스 LLM | 요약, QA, 생성 |
| NER | PORORO, KoELECTRA | 인명, 법안명, 기관명 추출 |
| STT | CLOVA Speech, 온프레미스 Whisper | 음성→텍스트 변환 |
| 벡터 DB | Milvus, Qdrant, Weaviate | 임베딩 저장/검색 |
| 지식 그래프 | Neo4j, Amazon Neptune | 관계 데이터 저장 |
| MLOps | MLflow, Kubeflow | 모델 버전/파이프라인 관리 |
| 계층 | 기술 | 용도 |
|---|
| 컨테이너 | Kubernetes, Docker | 서비스 오케스트레이션 |
| GPU 서버 | NVIDIA A100, H100 | LLM 추론/학습 |
| 오브젝트 스토리지 | MinIO, S3 | 원문/멀티미디어 저장 |
| 메시지 큐 | Kafka, RabbitMQ | 비동기 처리 |
| 모니터링 | Prometheus, Grafana | 시스템 모니터링 |
| 계층 | 기술 | 용도 |
|---|
| API Gateway | Kong, AWS API Gateway | API 관리/인증 |
| 검색 엔진 | Elasticsearch, OpenSearch | 키워드 검색, 하이브리드 검색 |
| 프론트엔드 | React, Next.js | 사용자 인터페이스 |
| 백엔드 | FastAPI, Spring Boot | API 서버 |
%%{init: {'theme': 'base', 'themeVariables': { 'fontSize': '14px' }}}%%
flowchart TB
subgraph stack["AI 기반 아카이브 기술 스택"]
direction TB
subgraph ui["사용자 인터페이스"]
U["웹 포털 | 모바일 앱 | Open API | 관리자 콘솔"]
end
subgraph gateway["API Gateway"]
G["API Gateway"]
end
subgraph services["AI 서비스 계층 (MSA)"]
S1["검색 QA<br/>Service"]
S2["요약<br/>Service"]
S3["분류<br/>Service"]
S4["추출<br/>Service"]
S5["추천<br/>Service"]
end
subgraph data["데이터 계층"]
D1["벡터 DB<br/>(Milvus)"]
D2["지식 그래프<br/>(Neo4j)"]
D3["기록 저장소<br/>(MinIO)"]
end
end
U --> G
G --> S1 & S2 & S3 & S4 & S5
S1 & S2 & S3 & S4 & S5 --> D1 & D2 & D3
style ui fill:#fff,stroke:#333,stroke-width:1px
style gateway fill:#f5f5f5,stroke:#666,stroke-width:1px
style services fill:#fff,stroke:#333,stroke-width:1px
style data fill:#f5f5f5,stroke:#666,stroke-width:1px
| 용어 | 정의 |
|---|
| RAG (Retrieval-Augmented Generation) | 검색 결과를 활용하여 AI 응답을 생성하는 기술 |
| 임베딩 (Embedding) | 텍스트를 숫자 벡터로 변환한 것. 의미적 유사도 계산에 사용 |
| 벡터 DB (Vector Database) | AI 임베딩 벡터를 저장하고 유사도 검색을 지원하는 데이터베이스 |
| LLM (Large Language Model) | GPT, Claude 등 대규모 언어 모델 |
| NER (Named Entity Recognition) | 텍스트에서 인명, 기관명 등 개체명을 인식하는 기술 |
| Fine-tuning | 사전 학습된 모델을 특정 도메인에 맞게 추가 학습 |
| 프롬프트 (Prompt) | AI 모델에 전달하는 입력 텍스트 |
| 환각 (Hallucination) | AI가 사실이 아닌 내용을 생성하는 현상 |
| 토큰 (Token) | AI 모델이 처리하는 텍스트의 기본 단위 |
| 컨텍스트 윈도우 | AI 모델이 한 번에 처리할 수 있는 토큰 수 |
| 용어 | 정의 |
|---|
| OAIS (Open Archival Information System) | ISO 14721 표준. 디지털 보존을 위한 참조 모형 |
| SIP (Submission Information Package) | 생산자가 아카이브에 제출하는 정보 패키지 |
| AIP (Archival Information Package) | 아카이브 내에서 보존되는 정보 패키지 |
| DIP (Dissemination Information Package) | 이용자에게 제공되는 정보 패키지 |
| 메타데이터 (Metadata) | 데이터를 설명하는 데이터. 제목, 생산자, 일시 등 |
| 출처주의 (Provenance) | 기록의 원래 맥락을 존중하는 원칙 |
| 용어 | 정의 |
|---|
| 지식 그래프 (Knowledge Graph) | 개체와 관계를 그래프 구조로 표현한 데이터 모델 |
| MSA (Microservices Architecture) | 애플리케이션을 독립적인 소규모 서비스로 분해하는 아키텍처 |
| ETL (Extract-Transform-Load) | 데이터를 추출, 변환, 적재하는 프로세스 |
| API (Application Programming Interface) | 시스템 간 통신을 위한 인터페이스 |
| MLOps | AI 모델의 개발, 배포, 운영을 자동화하는 방법론 |
| 용어 | 정의 |
|---|
| 의안 | 국회에서 의결해야 할 안건. 법률안, 예산안, 결의안 등 |
| 대수 | 국회의원 선거를 기준으로 한 국회 구분 단위 (예: 제21대 국회) |
| 회기 | 국회가 집회하여 활동하는 기간 |
| 상임위원회 | 소관 분야별로 설치된 상설 위원회 |
| 속기록 | 회의 발언을 그대로 기록한 문서 |
| 신구조문대비표 | 법률 개정 시 현행 조문과 개정안을 비교한 표 |
%%{init: {'theme': 'base', 'themeVariables': { 'fontSize': '14px' }}}%%
flowchart TB
subgraph oais["OAIS 기능 모형"]
direction TB
PP["보존 계획<br/>(Preservation Planning)"]
subgraph functions["핵심 기능"]
I["입수<br/>(Ingest)"]
A["운영 관리<br/>(Administration)"]
AC["접근<br/>(Access)"]
end
DM["데이터 관리<br/>(Data Management)"]
AS["보존 저장<br/>(Archival Storage)"]
end
PP --> A
I --> DM
A --> DM
AC --> DM
DM --> AS
style PP fill:#f5f5f5,stroke:#666,stroke-width:1px
style functions fill:#fff,stroke:#333,stroke-width:1px
style DM fill:#f5f5f5,stroke:#666,stroke-width:1px
style AS fill:#f5f5f5,stroke:#666,stroke-width:1px
%%{init: {'theme': 'base', 'themeVariables': { 'fontSize': '14px' }}}%%
flowchart TB
subgraph integrated["OAIS + AI 통합 모형"]
direction TB
subgraph ai["AI 서비스 계층"]
AS["NER | 분류 | 요약 | 검색 | QA | 추천"]
end
subgraph oais["OAIS 기능 계층"]
O1["입수<br/>+AI 추출"]
O2["데이터관리<br/>+AI 지식그래프"]
O3["보존저장<br/>+AI 무결성"]
O4["보존계획<br/>+AI 예측"]
O5["운영<br/>+AI 자동화"]
O6["접근<br/>+AI 검색QA"]
end
subgraph data["데이터 계층"]
D1["벡터 DB"]
D2["지식 그래프"]
D3["기록 저장소"]
end
end
AS <--> O1 & O2 & O3 & O4 & O5 & O6
O1 & O2 & O3 & O4 & O5 & O6 <--> D1 & D2 & D3
style ai fill:#f5f5f5,stroke:#666,stroke-width:1px
style oais fill:#fff,stroke:#333,stroke-width:1px
style data fill:#f5f5f5,stroke:#666,stroke-width:1px
| 기관 | 국가 | 특징 |
|---|
| Congress.gov | 미국 | 의회 정보 통합 포털, 오픈 API |
| Parliament UK | 영국 | 의회 아카이브, 디지털화 프로젝트 |
| Bundestag DIP | 독일 | 연방의회 문서 정보 시스템 |
| 国会図書館 | 일본 | 국회 회의록, NDL 디지털 컬렉션 |
| 서비스 | 특징 |
|---|
| Semantic Scholar | AI 기반 학술 검색, 논문 요약 |
| Perplexity AI | RAG 기반 검색 + 답변 생성 |
| Elicit | AI 기반 연구 보조 도구 |
| 표준 | 설명 | 적용 |
|---|
| Dublin Core | 범용 메타데이터 | 기본 기술 요소 |
| EAD | 아카이브 기술 표준 | 계층적 기술 |
| METS | 디지털 객체 메타데이터 | 패키지 구조 |
| PREMIS | 디지털 보존 메타데이터 | 보존 정보 |
| 표준 | 설명 |
|---|
| ISO 14721 | OAIS 참조 모형 |
| ISO 15489 | 기록 관리 표준 |
| OpenAPI 3.0 | REST API 명세 |
| 약어 | 원어 | 의미 |
|---|
| AIP | Archival Information Package | 보존 정보 패키지 |
| API | Application Programming Interface | 응용 프로그램 인터페이스 |
| DIP | Dissemination Information Package | 배포 정보 패키지 |
| LLM | Large Language Model | 대규모 언어 모델 |
| MLOps | Machine Learning Operations | 머신러닝 운영 |
| MSA | Microservices Architecture | 마이크로서비스 아키텍처 |
| NER | Named Entity Recognition | 개체명 인식 |
| NLP | Natural Language Processing | 자연어 처리 |
| OAIS | Open Archival Information System | 개방형 아카이브 정보 시스템 |
| OCR | Optical Character Recognition | 광학 문자 인식 |
| RAG | Retrieval-Augmented Generation | 검색 증강 생성 |
| SIP | Submission Information Package | 제출 정보 패키지 |