플랫폼

[일문일답] 카카오 서버 3.2만대 중 2.7만대 전원공급…서비스 재개 언제쯤?

판교=백지영

[디지털데일리 백지영기자] 지난 15일 데이터센터 화재로 발생한 카카오톡 등 주요 플랫폼 서비스의 장시간 장애로 국민들과 소상공인들이 큰 불편을 겪고 있는 가운데, 카카오는 현재까지 절반의 서버를 복구했다고 밝혔다. 다만 전체 서비스 복구까지는 시간이 걸릴 예정이다.

앞서 15일 오후 3시19분경 카카오와 네이버, SK그룹 계열사 등이 입주해 있는 SK C&C 판교 데이터센터 전기실에서 화재가 발생하며 3시22분경 서비스 전원이 차단됐다. 3시30분부터 카카오톡과 다음, 카카오웹, 카카오 계정 등 카카오 주요 서비스와 네이버 뉴스서비스 등에 장애가 발생했다.

카카오의 경우, 판교 데이터센터를 주 센터로 사용 중이어서 피해규모가 컸다. 전체 국민의 대다수가 사용 중인 카카오톡은 16일 오전 2시16분경부터 메시지 송수신 일부를 복구됐지만, 사진 전송 등 전체 서비스는 복구되지 않은 상황이다.

카카오 측에 따르면 현재 판교 데이터센터에서 운영 중인 3만2000여대 서버 가운데 1만6000대 가량이 복구됐다. SK C&C 측은 현재 카카오 서버에 직설 관로 포설을 통해 전원을 공급 중이며, 이것이 완료되면 카카오톡 등 대부분의 서비스가 복구될 것으로 예상하고 있다.

과학기술정보통신부는 운영 중이던 방송통신재난상황실을 16일 오전 11시15분부로 재난대책본부로 격상하고 조속한 서비스 정상화에 총력을 기울이고 있다는 설명이다. 또한 카카오톡과 같이 중요한 부가통신서비스 관련 시설에 대해 점검관리체계를 보완하고 필요한 기술적·제도적 방안 검토해 개선방안 마련할 계획이다.

아래는 16일 오전 SK C&C 판교데이터센터에서 열린 현장점검브리핑에 참석한 홍진배 과기정통부 네트워크 정책실장과 김완종 SK C&C 데이터센터 총괄 부사장, 양현서 카카오 ER실 부사장 등과의 일문일답.

Q. 데이터센터 관리 화재 매뉴얼이 있나. 그대로 작동됐나

A. (김완종) 판교 데이터센터는 관련된 안전 규정을 준수하고 있고, 올해 5월에도 소방시설 종합 점검을 통해서 필요한 소방 작동기능 점검을 수행했다. 화재가 발생하자마자 화재 경보의 울림과 함께 화재 경보 단계에 따라 자체 소화 설비가 작동됐고, 신속하게 소방당국으로 신고를 하는 등 매뉴얼대로 진행됐다.

Q. 화재 원인은 무엇인가?

A. (김완종) 소방당국과 국립과학수사연구원에서 조사할 계획이다. 3일 간 정밀 조사, 포렌식 복구 통해 화재 원인 식별될 것이다. 재발 방지 계획 수립해 절대 이같은 장애 발생하지 않도록 노력하겠다.

Q. 앞으로 정부는 주요 부가통신사업자에 대한 법제화를 추진할 예정인가.

A. (홍진배) 법적지위도 그렇고 보호 여러 기준이나 제도가 경중이 달리 돼 있다. 이번 원인 분석 상세하게 한 이후, 제도 필요성 도출해 부가통신사업자의 경우에도 서비스 안정성 확보 위한 제도상 보완 상황 있는지 도출할 계획이다.

Q. 카카오 일부 서비스는 복구됐는데, 완전 복구까지 얼마나 예상하나.

A. (양현서) 데이터센터의 큰 화재로 인해 서버가 대량 유실됐다. 판교가 메인 데이터센터로 3만2000대 서버가 운영되고 있다. 서버 전체에 전원 공급 차단된 상태여서 이중화 조치가 돼 있음에도 서버를 증설해서 트래픽 전환하는데 꽤 많은 시간이 걸렸다. 1만2000대 가량 복구했으며, 오후에 전원 공급되면 추가로 될 것이다. (16일 오후 2시경 2만7000대 서버에 전원공급). 화재 현장이어서 진입이 어려운 점이 있었다. 최선을 다하고 있지만, 전원 공급에 따라 정확한 복구 시간을 말하긴 어렵다.

Q. 대통령 지시에 따라 방송통신 재난상황실이 재난대책본부로 격상됐는데, 본부로 격상되면 어떤 의미가 있나.

A. (홍진배) 현재 재난대응단계는 4가지로 구분돼 있다. 방송통신재난대책본부는 가장 상위 단계 대응 레벨이다. 관계부처 협업 대응이 가능한 가장 높은 수준이다. 사고 원인 조사 분석을 넘어 기술적 보안 조치 등 모든 역량 동원해 서비스 정상화를 위한 필요한 조치 지원하겠다.

Q. 카카오톡의 경우 현재까지 가장 긴 시간 먹통이다. 복구가 늦어지는 이유는?

A. (양현서) 헌재 판교, 안양 등 4개 데이터센터로 분산해 운영 중이며, 판교 SK C&C 데이터센터 메인으로 사용하고 있다. 3만2000대 서버 다운됐다. 화재 현장이어서 어드민 작동이 어려움이 있어 시간이 지연됐다. 보통 카카오톡의 경우, 장애가 나면 20분 내 해결 목표를 세우고 있다. 그러나 이번엔 서버 손실량이 커서 장애 대응이 지연됐다. 3만2000대라는 유례없는 장애가 발생했다. 화재로 인한 이같은 대규모 장애는 예상할 수 없는 시나리오였다. 앞으로는 이런 상황까지 대비해 철저한 재발 방지대책 세우겠다.

Q. 카카오톡 이외에 SK C&C 데이터센터에 입주한 기업 서비스 업무에는 이상 없나?

A. (김완종) IBM 클라우드 센터와 SK그룹사 등도 입주해 있다. 전원 공급 상황에 따라 IBM 클라우드 서비스나 SK그룹사 등 순차적인 복구가 거의 이뤄진 상태다. 입주사와 긴밀히 협업해 서비스 재가동 되고 있다.

Q. 카카오톡 데이터 손실 여부는?

A.(양현서) 0%다.
판교=백지영
jyp@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널