시스템 장애 보고 절차는 조직이나 기업 내에서 시스템 장애가 발생했을 때 적절한 대응과 문제 해결을 위해 따라야 할 프로세스입니다. 아래는 일반적으로 사용되는 시스템 장애 보고 절차의 요약입니다.
1. 시스템 장애 보고
(1) 장애 감지 및 평가
시스템 장애는 감지되고 평가되어야 합니다. 이는 모니터링 시스템이나 사용자 보고에 의해 이루어질 수 있습니다. 장애의 심각성과 영향을 평가하여 우선순위를 결정합니다.
(2) 보고 및 기록
장애를 즉시 해당 담당 부서나 담당자에게 보고합니다. 장애 보고 양식을 사용하여 발생한 문제와 관련된 모든 정보를 기록합니다. 이 정보에는 장애 발생 시간, 영향 범위, 장애 내용, 그리고 추가 정보가 포함될 수 있습니다.
(3) 유관 부서 협조 요청
시스템 장애 대응을 위해 유관 부서를 협조 요청합니다. 일반적으로 시스템 운영팀, 개발팀, 인프라팀, 네트워크팀, 보안팀 등이 될 수 있습니다. 장애의 복구와 대응을 위한 조치를 취하기 위해 팀 간의 협력이 필요합니다.
(4) 우선순위 할당
장애의 심각성과 영향을 기반으로 우선순위를 할당합니다. 시스템 장애가 업무 중요도에 큰 영향을 미치는 경우, 빠른 대응이 필요합니다.
(5) 문제 분석 및 대응
대응 팀은 시스템 장애의 원인을 분석하고 적절한 조치를 취합니다. 이는 문제 해결을 위한 기술적인 조치뿐만 아니라 임시적인 대응 및 사용자에 대한 안내도 포함될 수 있습니다.
(6) 장애 해결 및 복구
문제가 해결되면 시스템을 복구하고 정상 운영으로 복귀합니다. 복구 후에는 추가적인 모니터링이 이루어져 장애가 재발하지 않도록 확인합니다.
(7) 사후 조치 및 문제 점검
장애 발생 후에는 원인을 분석하고 재발을 방지하기 위한 사후 조치를 취합니다. 이는 시스템의 안정성을 높이기 위해 필요한 조치를 취하는 것을 의미합니다.
시스템 장애 보고 절차는 조직의 특성과 요구에 따라 다를 수 있으며, 이는 보안 및 규정 준수, 비즈니스 연속성 및 서비스 수준 등을 고려하여 개발됩니다.
2. 시스템 장애 보고 Template
운영 시스템 장애 처리 이후 보고서 작성 Template 에 대해 공유드리겠습니다.
대표 적으로 (1) 장애 관리 (2) 장애 개요 (3) 시간대별 조치 내역 (4) 향후 대책 4가지 카테고리로 나뉘어져 있습니다.
3. 시스템 장애 원인 List
- 방화벽 만료로 인한 서비스 불가
- CPU / Memory / DISK 부족으로 인한 서비스 불가
- DB Dead Lock으로 인한 서비스 불가
- 네트워크 오류
- HW Fault
- 정전으로 인한 서비스 다운
장애 원인은 이외에도 다양한 경우가 있어 모든 상황에 대비하고 유관부서 협업을 통해서 원인을 빠르게 파악하는 것이 중요하겠습니다.
차후에는 각 원인별 처리 방법에 대해서 작성하도록 하겠습니다.
'#IT 업무노트' 카테고리의 다른 글
[IT용어] RTO, RPO, SPOF, POC 란? (0) | 2024.03.22 |
---|---|
소프트웨어 아키텍쳐 종류와 검토 (1) | 2024.03.22 |
사번 체계 변경시 고려해야 하는 사항 (2) | 2024.02.08 |
EDI (Electronic Data Interchange) EAI 차이 (1) | 2024.02.06 |
RuntimeException과 CompileException (0) | 2024.01.28 |