화마로 카카오 멈춘 그날, SK C&C 판교데이터센터에 무슨 일이?
-빅테크 카카오, 서비스 아키텍처 구성 실패 인정
[디지털데일리 최민지 기자] 카카오 서비스가 모두 멈춘 그날, 지난 15일 화재가 발생한 SK C&C 판교데이터센터에서는 무슨 일이 있었을까?
경찰과 소방당국, 국립과학수사연구원, 전기안전공사 등 유관기관과 합동 감식을 진행했고 과학기술정보통신부까지 현장조사를 실시하며 원인 파악에 나섰다. 아직 정부 공식 발표는 나오지 않은 상태다.
하지만, 경찰‧소방당국 1차 합동감식 결과 지하 3층 전기실 배터리 랙 5개가 전소된 것을 확인했다. 배터리 또는 랙 주변에서 화재가 시작됐다는 설명이다.
SK C&C에 따르면 전원 공급이 끊어졌을 때 사용 가능한 보조전력장치격인 무정전전원장치(UPS)엔 문제가 없어 소방당국 지시 아래 전체 전력을 차단한 후 약 30분간 UPS를 가동시켰다. 화재는 15일 오후 3시19분경 발생했고, 소방당국 전력 차단 요청은 4시52분경에 이뤄졌다.
하지만, 이미 카카오 전 서비스는 이날 오후 3시30분경부터 먹통이 됐다. SK C&C 판교데이터센터를 메인 데이터센터로 삼은 카카오는 이 곳에 3만200여대 서버를 뒀다. 이 서버들이 화재 직후 곧바로 작동을 멈춰버린 것이다.
이와 관련 홍은택 카카오 대표는 19일 개최한 기자회견을 통해 화재현장을 방문한 사실을 밝히며 "근본적 화재원인은 리튬배터리"라고 주장했다. 그는 "지하 3층 SK온 리튬배터리에서 화재가 발생했고, 천장에 있던 카카오 전산실과 연결된 케이블이 손상됐다”며 “UPS 장치 가동하려면 배터리가 필요한데, 배터리와 UPS가 같은 공간에 있었다”고 말했다.
이어 “UPS를 가동하려면 리튬배터리가 필요하다”며 “보통 전력 공급이 중간에 끊기면, 서버는 이걸 정전으로 인식한다. 데이터센터는 전력 공급이 끊겨도 10~15분간 안정적으로 전력을 공급하도록 하는 장치가 배터리”라고 설명했다. 배터리와 UPS는 SK C&C가 구축한 부분이다.
현재 한전에서 두 개 선로를 지중화로 연결해 이중화 작업을 마무리하고 있다. 또, 카카오와 SK C&C는 납축전지를 사용하는 대안도 검토 중이다. 이와 별도로 SK C&C에서는 리튬배터리 수급 작업에 박차를 가하고 있다.
이처럼 카카오가 리튬배터리를 화재 원인으로 지목했지만, ‘이중화 미비’에 대한 책임을 벗은 것은 절대 아니다. 카카오 또한 이 점을 깊이 반성하며, 재발 방지 대책을 세우기로 했다.
카카오 전체 서버 80%에 달하는 3만2000대가 작동을 멈췄어도, 화재에 대응한 이중화 조치가 있었더라면 서비스 장애 피해를 줄일 수 있었기 때문이다. 심지어, 서버를 자동으로 배포하는 시스템도 중단돼, 서버를 일일이 수동으로 부팅하고 서비스를 배포해야 했다. 서비스 정상화가 늦어진 이유다.
홍은택 대표는 “서비스 아키텍처상 실패”라고 판단했다. 고객 데이터를 다루는 주요 서비스 응용 프로그램은 이중화했지만, 이를 다루는 작업도구를 이중화하지 않았다는 것이다. 이로 인해 DR(백업) 시스템도 제대로 작동할 수 없었다.
실제로, 이중화된 고객 데이터는 이번 장애에도 유실되지 않았다. 금융권 이중화 의무를 준수해야 하는 카카오뱅크도 큰 피해를 입지 않았다.
홍 대표는 “서버가 중단되면, 다른 데이터센터에 있는 서버가 바로 가동되는 그런 상태는 아니었다. 이를 자동적으로 배포하려면, 판교 데이터센터에 있던 도구가 작동해야 했지만 화재로 전원 차단되면서 문제가 생겼다”며 “운영도구가 이중화된다면 지금같은 장기간 불통 사태는 일어나지 않을 것”이라고 말했다.
이어 “데이터센터 전체가 셧다운된 경우가 없어, 이를 염두하지 않고 이중화를 한 것이 문제였다”며 “판교데이터센터 안정화 후 2개월 후, 연내까지 작업도구 이중화를 추진하겠다”고 설명했다.
카카오는 한양대 에리카 캠퍼스에 위치한 자체 데이터센터 건립을 내년 완공하고, 2024년에는 서울대 시흥캠퍼스에도 데이터센터를 짓는다. 카카오는 추가 데이터센터 확보와 기존 4곳 데이터센터 이중화도 실시할 방침이다.
다만, 홍 대표 “비금융권 서비스에 대해서도 금융권 수준의 DR 시스템을 구축할 지에 대해선 신중하게 본다”며 “모든 것을 이중화한 곳은 많지 않았지만, 이를 목표로 향해갈 것”이라고 전했다.
한편, 카카오는 이번 사태와 관련한 장애 리포트를 향후 공개할 계획이다.
DL건설, “공정문화 확산 실천”…‘2024년 DL건설 컴플라이언스 데이’ 개최
2024-11-15 14:18:34[지스타2024]웹젠 ’칼’ 갈았네…’드래곤소드’ 최초 시연에 모두 쏟아부었다
2024-11-15 13:53:03방통위, SO 사업자 재허가 사전동의 시한 넘겨…"불이익 없도록 최선"
2024-11-15 13:32:56대기업 IT서비스 수장들, 변화보다 안정?…연말인사 관전포인트
2024-11-15 12:31:32함영주 하나금융 회장 "글로벌 눈높이 맞는 주주환원 이행”… 홍콩서 해외 IR
2024-11-15 12:28:22