KT 통신 장애 "라우터 교체 중 직원 exit 명령어 누락"

2021.10.30 09:44:37

[더테크 뉴스] 과학기술정보통신부는 지난 10월 25일 발생한 KT 네트워크 장애 사고와 관련하여 정보보호, 네트워크 전문가들로 구성된 사고조사반과 함께 원인을 조사·분석한 결과를 발표했다.

 

이번 KT 네트워크 장애사고는 25일 11시 16분경부터 시작되어, DNS 트래픽 증가에 이어, 네트워크 장애가 발생하였고, 12시 45분경 KT의 복구조치가 완료되어 약 89분의 서비스 장애가 발생하였다.

 

지난 10월 25일 11시 16분부터 KT DNS 서버에서 평시에 비해 트래픽이 급증했다. 중앙 1차 DNS(혜화)의 경우 평시 대비 22배 이상, 중앙 2차 DNS(혜화)는 평시 대비 4배 이상, 부산 DNS는 평시 대비 3.7배 이상 증가하는 등 큰 폭의 트래픽 증가가 나타났다.

 

DDoS 공격은 1개의 IP가 다량의 도메인 또는 비정상 도메인을 DNS 서버에 질의하는 시스템 자원 공격과 대량의 네트워크 패킷을 DNS 서버에 전송하여 서비스 대역폭을 채우는 네트워크 대역폭 공격의 두가지 유형을 보이게 된다. 조사반은 각 유형별 해당여부를 패킷, 트래픽 분석 등을 통해 조사했다. 

 

이번 사고 로그기록을 분석한 결과, 부산국사에서 기업 망 라우터 교체 작업 중, 작업자가 잘못된 설정 명령을 입력하였고, 이후 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생한 것으로 분석되었다.

 

인터넷 서비스가 제공될 때, PC. 스마트폰 등 개인의 접속단말은 지역라우터, 센터라우터 등을 거쳐 국내외 네트워크로 연결되는데, 정상적인 연결을 위해서는 이용자 단말과 접속 대상 IP 주소 사이에 있는 다수의 라우터의 경로정보가 필요하다.

 

 

라우터는 네트워크 경로정보를 구성하기 위해 최신의 경로정보를 라우터끼리 교환(업데이트)하는 프로토콜을 사용하는데, KT 네트워크와 외부 네트워크 경로 구성에는 BGP 프로토콜을 사용하고, KT 내부 네트워크 경로 구성에는 IS-IS 프로토콜을 사용한다.

 

라우터는 이렇게 BGP, IS-IS 등 프로토콜을 통해 교환한 경로정보를 종합해서 최종 라우팅 경로를 설정하게 된다.

 

작업자의 작업내역을 확인한 결과, 사고발생 라우터에 라우팅 설정명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 ‘exit’ 명령어를 누락했으며, 이로 인해, BGP 프로토콜에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송되었다.

 

통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서, 라우팅 경로에 오류가 발생하게 됐다. 이러한 라우팅 경로에 발생한 오류는 다음과 같은 경로로 전국적으로 확산된 것으로 분석되었다.

 

IS-IS 프로토콜 내의 라우터들은 상호간의 정보 최신화를 위해 자동으로 데이터를 주고받는데, 부산 지역라우터에 잘못된 라우팅 경로가 설정된 이후, 다른 지역의 IS-IS 라우터 등에도 잘못된 업데이트 정보가 전달되었다.

 

KT 네트워크 내에 있는 라우터들을 연결하는 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있고, 결국 한 개 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 일어나서 장애가 전국적으로 확대되었다.

 

조사반은 이번 사고 조사·분석 과정에서 다음과 같은 KT의 관리적·기술적 문제점이 있었다고 파악하였다. 당초 KT 네트워크관제센터가 야간작업(01시~06시)을 승인하였으나, 작업이 주간에 수행되는 과정에서 장애가 발생하게 되었던 것으로 확인됐다.

 

또한, 작업 관리자 없이 KT 협력업체 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 작업오류를 방지하기 위한 작업관리체계가 부실했으며, 네트워크가 연결된 채로 작업이 이루어진 것으로 확인했다.

 

사전검증 단계에서 오류를 파악하지 못하는 기술적 문제점도 들어났다. 라우팅 작업계획서상의 라우팅 설정 명령어 스크립트에서 IS-IS 프로토콜을 종료하는 ‘exit’ 명령어가 누락되었으나 스크립트 작성과정 및 사전 검증 과정에서 발견하지 못했다.

 

단기 대책으로 △주요통신사업자의 네트워크 작업체계, 기술적 오류확산 방지체계 등 네트워크 관리체계를 점검하고, △ 주요통신사업자가 네트워크 작업으로 인한 오류여부를 사전에 진단할 수 있는 시뮬레이션 시스템을 도입한다.

 

또한, △주요통신사업자가 승인된 작업계획서의 내용 및 절차가 준수되는지에 대해 네트워크관제센터에서 기술적 점검 체계를 구축토록 하고, △라우팅 설정오류로 인한 피해를 최소화하기 위해, 주요통신사업자가 라우팅 작업을 할 때 한 번에 업데이트되는 경로정보 개수를 일정 수준 이하로 제한 등이 검토될 계획이다.

 

KT는 이용자 피해현황 조사 및 피해구제 방안 마련을 추진하고, 방송통신위원회(이하 방통위)는 이용자 피해구제 방안 이행여부를 점검할 예정이다. 방통위는, 통신장애 발생시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안 마련을 검토할 계획이다.

 

홍주희 hongjuhee@the-tech.co.kr
Copyright @더테크 (TEC TECH) Corp. All rights reserved.





  • 네이버포스트
  • X
  • Facebook