콘텐츠로 이동

모니터링 및 장애 대응

시스템의 안정적 운영을 위한 모니터링 체계와 장애 발생 시 대응 절차를 정의합니다.


점검 항목방법주기정상 기준
사이트 접속https://archives.v1365.or.kr 접속수시HTTP 200, 3초 이내 응답
SSL 인증서브라우저 인증서 정보 확인월 1회유효기간 30일 이상 잔여
디스크 사용량df -h, du -sh /files/월 1회80% 미만
에러 로그Apache error.log, PHP error.log 점검월 1회반복 에러·5xx 에러 없음
MySQL 상태SHOW PROCESSLIST, slow query log월 1회느린 쿼리 없음
Solr 검색프론트엔드 검색 테스트월 1회검색 결과 정상 반환
Solr 색인 동기화아이템 수와 색인 문서 수 비교분기 1회일치

등급기준대응 시한예시
🔴 긴급서비스 전면 장애, 데이터 유실 위험즉시 (선조치 후 보고)서버 다운, SSL 만료, DB 장애, 보안 침해
🟠 높음주요 기능 장애4시간 이내검색 불가, 전시 오류, 아이템 등록 불가
🟢 일반경미한 오류, 수정 요청영업일 2일 이내텍스트/이미지 수정, 배너 제작, UI 깨짐

장애 대응 프로세스

등급보고 시점보고 방식
🔴 긴급인지 즉시 + 조치 후유선 + 서면
🟠 높음대응 착수 시 + 완료 시이메일 또는 공식 채널
🟢 일반처리 완료 시유지보수 시트 기록