올해 20주년을 맞은 네이버가 상당 폭의 변화를 맞았다. 하루 3000만명이 드나드는 모바일 메인 개편은 여러 실험 끝에 적용이 이뤄졌고 동영상 중심의 콘텐츠 제작과 편집, 소비에 이르기까지 끊이지 않는 사용자경험을 위한 체질 개선에도 나선다. 이용자가 보는 앞단의 변화가 이 정도라면 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다.
<디지털데일리>는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라 이름 붙이고 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. ‘빅데이터 & AI 플랫폼’과 ‘검색엔진’, ‘엣지서버’에 이은 네 번째 네이버 어벤저스 팀은 ‘SRE’ 엔지니어들이다. <편집자 주>
[디지털데일리 이대호기자] 구글, 우버 등 세계 유수의 정보기술(IT) 기업엔 다 있다는 이 조직. 그러나 존재 유무 정도만 파악될 뿐 관련 정보가 겉으로 쉽게 드러나지 않는 다소 비밀스런 조직이기도 하다. 국내에선 네이버가 테크블로그와 데뷰(DEVIEW) 컨퍼런스, 국외 학회를 통해 조직 활동을 알린 바 있다.
이와 관련한 기술 분야가 SRE(Site Reliability Engineering)다. 네이버는 SSR(Service System Reliability) 조직으로 부른다. 사이트 신뢰도를 위한 개발, 서비스 시스템의 신뢰를 책임지는 조직이다. 쉽게 말해 네이버 검색에 문제가 생기지 않고 정상적으로 잘 동작할 수 있도록 만드는 조직이다.
이 분야는 기업들이 정보 공유에 인색한 편이다. 네이버의 경우 관련 컨퍼런스에 참여하는 등 외부에 적극 알리는 편이다. 네이버 SSR은 활동 범위나 업무 영역에 한정짓지 않아 스타트업과 같은 다이내믹한 조직문화를 갖춘 것이 특징이다. SSR 핵심 개발진인 김재헌 리더, 강민철 엔지니어, 손주식 엔지니어가 <디지털데일리>와 인터뷰에 나섰다.
◆1인 조직으로 시작된 SSR=네이버 SSR은 김재헌 리더가 1호 인사다. 1인 태스크포스(TF)로 시작했다. 초기 목표는 검색시스템과 검색서비스의 흩어져 있는 정보들을 효율적으로 모으고 가시화해서 각종 의사결정에 사용하기 위한 표준 및 도구 개발로 잡았다.
그러던 2016년 9월, 경주에서 리히터 규모 5.8의 지진이 발생하면서 조직 목표에 변화가 생겼다. 김 리더는 “유례가 없는 강한 규모의 지진 발생이나 국가적 재난 상황, 전 국민이 집중하는 이벤트가 발생했을 때 네이버 검색시스템의 상태를 즉시 확인하고 대응할 수 있는 시스템을 만들어 보자”며 SSR 조직을 본격 결성한 계기를 밝혔다.
당시 국외에서 SRE 분야가 떠오르던 시기였다. 구글 등 주요 IT기업들 사이에서 전체 시스템의 신뢰성(Reliability)을 다루는 특수 분야가 주목받았다는 게 김 리더 설명이다.
SRE 관점에서 다룰 수 있는 주제는 데이터센터의 인프라스트럭처 운영부터 성능 및 장애 관리, 비용 관리, 코딩 컨벤션까지 대단히 다양하다. 물론 조직 초창기부터 이 모든 것을 다룰 수는 없다. 김 리더 입장에선 주제 선택과 집중이 필요했다. ◆사용자 트래픽 얼마나 소화 가능할까…‘가용량’에 주목=김 리더는 ‘가용량(Availabitliy)’에 주목했다.
가용량은 ‘네이버 검색시스템은 사용자 트래픽을 얼마나 더 소화할 수 있는가’라는 질문에 대한 답을 숫자로 나타내는 것이다. 김 리더는 이러한 시스템 리스크를 수치를 표현하기 위해 최대가용배수 및 부하증가배수 라는 개념을 만들어 냈고 이를 시스템화하고 조직 전체에 도입하는 활동을 지속해왔다.
김 리더는 이를 통해 “사용자가 인지하지 못하는 사용자 장애 전 단계의 시스템 장애를 90% 감소시킬 수 있었다”고 밝혔다. 그는 또 “재작년부터 1년에 10분 이하 다운타임을 충족시키고 있는데 이 기준을 만족시키는 기업이 없을 것”이라며 자부심을 보이기도 했다. 덧붙여 “고비용 사후처리보다 저비용 사전예방을 목표한다”고 강조했다.
◆지진이 또? 국가적 이슈가 반복되면? 취약점까지 선제 파악=네이버 SSR은 경주에 이어 포항 지진 그리고 대학수학능력시험 등 국가적 이슈를 재차 접하면서 한번 더 변화를 모색하게 됐다. 가용량만을 보여주는 현황판으로는 전체 검색시스템을 관제하고 문제 원인을 찾아내기 어렵다는 판단을 내린 것이다.
김 리더는 “전체 시스템의 상황을 쉽게 볼 수 있는 순차적 구조도와 위험을 나타내는 숫자로 표시할 수 있으면 또 한번 견고해 질 수 있겠다는 확신을 가지고 1달간의 프로토 타입을 만들게 됐다”고 지난 상황을 회고했다.
그 결과, 지금은 ‘모니터(Monitor)’라고 부르는 현재 SRE 시스템의 원형이 탄생하게 된다. 시스템과 데이터 가시화는 물론 취약점까지 보여줬는데, 김 리더는 이때부터 어렵지만 재미있는 점을 느끼기 시작했다고 전했다.
“시스템과 데이터의 가시화는 보지 못하고 있던 새로운 취약점들을 보여주고 취약점을 보완하는 장치를 만들면 또 새로운 취약점이 드러나게 됩니다. 자신의 꼬리를 먹는 뱀인 우로보로스와 같은 모양새라고 볼 수 있습니다. 이런 업무의 발전은 조직 구성원들의 업무 방향성도 바꾸게 되었는데요. Anomaly(변칙, 이례 등을 뜻하며 이상 지표를 내부에서 부르는 용어)를 빠르게 디텍션해 분석하는 업무에서 Anomaly를 유발하는 각종 이벤트와 사건 사고를 분석하는 방향으로 발전하게 됩니다. 간단히 말하면 이런 개념입니다.”