본문 바로가기
#IT 업무노트

개발/운영 시스템 장애 보고 절차

by 꾸미라기 2024. 3. 11.
반응형
SMALL


시스템 장애 보고 절차는 조직이나 기업 내에서 시스템 장애가 발생했을 때 적절한 대응과 문제 해결을 위해 따라야 할 프로세스입니다. 아래는 일반적으로 사용되는 시스템 장애 보고 절차의 요약입니다.

1. 시스템 장애 보고

(1) 장애 감지 및 평가
시스템 장애는 감지되고 평가되어야 합니다. 이는 모니터링 시스템이나 사용자 보고에 의해 이루어질 수 있습니다. 장애의 심각성과 영향을 평가하여 우선순위를 결정합니다.

(2) 보고 및 기록
장애를 즉시 해당 담당 부서나 담당자에게 보고합니다. 장애 보고 양식을 사용하여 발생한 문제와 관련된 모든 정보를 기록합니다. 이 정보에는 장애 발생 시간, 영향 범위, 장애 내용, 그리고 추가 정보가 포함될 수 있습니다.

(3) 유관 부서 협조 요청
시스템 장애 대응을 위해 유관 부서를 협조 요청합니다. 일반적으로 시스템 운영팀, 개발팀, 인프라팀, 네트워크팀, 보안팀 등이 될 수 있습니다. 장애의 복구와 대응을 위한 조치를 취하기 위해 팀 간의 협력이 필요합니다.

(4) 우선순위 할당
장애의 심각성과 영향을 기반으로 우선순위를 할당합니다. 시스템 장애가 업무 중요도에 큰 영향을 미치는 경우, 빠른 대응이 필요합니다.

(5) 문제 분석 및 대응
대응 팀은 시스템 장애의 원인을 분석하고 적절한 조치를 취합니다. 이는 문제 해결을 위한 기술적인 조치뿐만 아니라 임시적인 대응 및 사용자에 대한 안내도 포함될 수 있습니다.

(6) 장애 해결 및 복구
문제가 해결되면 시스템을 복구하고 정상 운영으로 복귀합니다. 복구 후에는 추가적인 모니터링이 이루어져 장애가 재발하지 않도록 확인합니다.

(7) 사후 조치 및 문제 점검
장애 발생 후에는 원인을 분석하고 재발을 방지하기 위한 사후 조치를 취합니다. 이는 시스템의 안정성을 높이기 위해 필요한 조치를 취하는 것을 의미합니다.

시스템 장애 보고 절차는 조직의 특성과 요구에 따라 다를 수 있으며, 이는 보안 및 규정 준수, 비즈니스 연속성 및 서비스 수준 등을 고려하여 개발됩니다.

2. 시스템 장애 보고 Template

운영 시스템 장애 처리 이후 보고서 작성 Template 에 대해 공유드리겠습니다.

대표 적으로 (1) 장애 관리 (2) 장애 개요 (3) 시간대별 조치 내역 (4) 향후 대책 4가지 카테고리로 나뉘어져 있습니다.

장애 관리
장애 개요
시간대별 조치 내역
향후 대책

3. 시스템 장애 원인 List

- 방화벽 만료로 인한 서비스 불가

- CPU / Memory / DISK 부족으로 인한 서비스 불가 

- DB Dead Lock으로 인한 서비스 불가

- 네트워크 오류

- HW Fault

- 정전으로 인한 서비스 다운

 

장애 원인은 이외에도 다양한 경우가 있어 모든 상황에 대비하고 유관부서 협업을 통해서 원인을 빠르게 파악하는 것이 중요하겠습니다.

차후에는 각 원인별 처리 방법에 대해서 작성하도록 하겠습니다.

반응형