과기정통부, KT 네트워크 장애 원인 분석 결과 발표
당초 1시~6시 새벽 야간작업으로 승인된 작업을 주간에 시행
정부, 단기·중장기적 ‘네트워크 안정성 확보방안’ 마련할 것
방통위 “통신장애 발생시, 실효성 있는 피해구제 법령 등 개선방안 검토”
최근 발생한 KT의 인터넷 장애 관련 정부의 원인분석결과가 발표됐다. 사고발생 라우터의 라우팅 설정명령어 입력과정에서 명령어 한 줄을 빠트려 사고가 일어난 것으로 밝혀졌다.
29일 과학기술정보통신부는 지난 25일 발생한 KT 네트워크 장애 사고와 관련해 정보보호, 네트워크 전문가들로 구성된 사고조사반과 함께 원인을 조사·분석한 결과를 발표했다. 이번 KT 네트워크 장애사고는 지난 25일 오전 11시 16분경부터 시작돼 도메인네임시스템(DNS)상의 트래픽 증가에 이어 네트워크 장애가 발생했고, 오후 12시 45분경 KT의 복구조치가 완료돼 약 89분간 서비스 장애가 발생했다.
KT는 이번 사고로 인한 이용자 피해 보상을 위해 이용자 피해현황 조사 및 피해구제 방안 마련을 추진할 예정이다. 또 방송통신위원회(방통위)는 이용자 피해구제 방안 이행여부를 점검하고, 통신장애 발생시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안 마련을 검토할 계획이다.
KT 전국 인터넷 ‘먹통’ 사태 원인은? ‘라우팅 오류’
정부가 이번 사고 로그기록을 분석한 결과, KT 부산국사에서 기업 망 라우터 교체 작업 중, 작업자가 잘못된 설정 명령을 입력한 것으로 확인됐다. 이후 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생한 것으로 분석됐다.
라우팅 설정오류에 따른 장애발생 과정은 다음과 같다. 인터넷 서비스가 제공될 때, PC·스마트폰 등 개인의 접속단말은 지역라우터, 센터라우터 등을 거쳐 국내외 네트워크로 연결되는데, 정상적인 연결을 위해서는 이용자 단말과 접속 대상 IP 주소 사이에 있는 다수의 라우터의 경로정보가 필요하다.
라우터는 네트워크 경로정보를 구성하기 위해 최신의 경로정보를 라우터끼리 교환(업데이트)하는 프로토콜을 사용하는데, KT 네트워크와 외부 네트워크 경로 구성에는 외부 라우터와 경로정보를 주고받는 프로토콜인 ‘BGP 프로토콜’을 사용하고, KT 내부 네트워크 경로 구성에는 내부 라우터 간 경로정보를 주고받는 프로토콜 ‘IS-IS’ 프로토콜을 사용한다.
하지만, 당시 작업자의 작업내역을 확인한 결과 사고발생 라우터에 라우팅 설정명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 ‘exit’ 명령어를 누락했다. 이로 인해, BGP 프로토콜에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송된 것으로 파악됐다. 통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서, 라우팅 경로에 오류가 발생하게 된 것이다. 이후 라우팅 경로에 발생한 오류가 전국적으로 확산됐다.
야간에 승인받은 라우팅 작업을 주간에…작업 관리자도 없었다
이번 사고는 당초 KT 네트워크관제센터가 협력사로부터 새벽 1시부터 오전 6시까지 야간작업으로 승인을 받은 작업이였으나, 주간에 수행되는 과정에서 장애가 발생한 것으로 확인됐다.
또 작업 관리자 없이 KT 협력업체 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 작업오류를 방지하기 위한 작업관리체계가 부실했으며, 네트워크가 연결된 채로 작업이 이루어진 것으로 확인했다.
아울러 정부는 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었고, 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템이 부재했다는 점도 문제라고 지적했다.
정부 조사 결과 “디도스·네트워크 대역폭 공격 아냐”
앞서 이번 사고 직후 사고 발생 원인으로 ‘디도스’ 공격이 거론된 바 있다. 디도스와 관련해 조사반의 패킷분석 결과, 디도스 공격이 맞을 경우 개별 ip에서 수백, 수천개의 질의가 발생하지만 당시 개별 IP의 DNS 질의는 최대 15개 이내 수준(중앙 1차 DNS 기준)으로 소수에 그친 것으로 나타났다.
구체적으로 네이버와 다음 등 정상적인 도메인 질의 이력만 존재했고, 존재하지 않는 비정상적인 도메인의 반복적인 질의도 없었던 것으로 파악돼, 시스템 자원 DDoS 공격은 없었던 것으로 분석했다고 과기정통부 측은 설명했다.
또 네트워크 대역폭 공격을 원인으로 사고 트래픽 분석을 실시한 결과, 당시 중앙 1차 DNS서버 대역폭의 최대 8%, 부산 DNS 서버 대역폭의 28% 규모의 트래픽 유입만 있어서 대역폭 대비 충분히 수용가능한 수준으로 네트워크 대역폭 공격은 아닌 것으로 알려졌다.
정부, 전문가들과 TF 꾸려 ‘네트워크 안정성 확보방안’ 마련
한편, 과기정통부는 이번 조사결과를 바탕으로 주요통신사업자 네트워크의 생존성·기술적·구조적인 대책이 담긴 ‘네트워크 안정성 확보방안’을 마련할 계획이다. 이를 위해 과기정통부 네트워크정책실장을 단장으로 네트워크 전문가 등 관계 전문가들과 태스크포스(T/F) 팀을 구성, 운영하기로 했다.
네트워크 안정성 확보방안은 단기대책과 중장기대책을 포괄하는 방안이 검토될 예정이다. 단기 대책으는 ▲ 주요통신사업자의 네트워크 작업체계, 기술적 오류확산 방지체계 등 네트워크 관리체계를 점검하고 ▲주요통신사업자가 네트워크 작업으로 인한 오류여부를 사전에 진단할 수 있는 시뮬레이션 시스템을 도입할 예정이다.
또한 ▲주요통신사업자가 승인된 작업계획서의 내용 및 절차가 준수되는지에 대해 네트워크관제센터에서 기술적 점검 체계를 구축토록 하고 ▲라우팅 설정오류로 인한 피해를 최소화하기 위해, 주요통신사업자가 라우팅 작업을 할 때 한 번에 업데이트되는 경로정보 개수를 일정 수준 이하로 제한 등이 검토될 계획이다. 중장기적 대책으로는 ▲주요통신사업자의 통신장애 대응 모니터링 체계 강화 ▲네트워크 안정성과 복원력을 높이는 기술개발 ▲안정적인 망 구조 등 네트워크의 생존성 확보를 위한 구조적 대책 마련 등도 추진할 계획이다.
김경영 기자 management@techm.kr