소프트웨어

매일 100TB…링크드인은 어떻게 빅데이터 처리하나

심재석 기자

 

[IT전문 미디어블로그 = 딜라이트닷넷]

링크드인은 전세계 200여 개 국가에서 1억 5000만 명 이상이 회원으로 가입한 소셜네트워크서비스(SNS)입니다. 페이스북이나 트위터에 비해 규모는 작지만 ‘비즈니스맨’을 중심으로 한 특화된 서비스라는 점에서 인기를 끌고 있습니다.

포춘(Fortune) 500대 기업의 경영진들 대부분이 링크드인 회원으로 알려졌으며, 북미 기업의 약 40%가 링크드인을 통해 채용을 실시한다고 합니다. 때문에 링크드인의 프로필은 페이스북과 달리 웬만한 이력서 저리가라입니다.

링크드인은 다른 SNS와 달리 수익을 광고에만 의존하지 않습니다. 프리미엄 회원가입, 채용 솔루션, 마케팅 솔루션 등 다양한 수익모델을 보유하고 있습니다.

이런 서비스를 유지하기 위해서는 엄청난 양의 데이터를 빠르게 처리하는 것이 중요합니다. 사용자들에게는 간단해 보이는 기능일지라도 뒷단의 처리는 굉장히 복잡하게 이뤄집니다. 흔한 ‘알 수도 있는 사람(친구 추천)’의 기능만 해도 1억5000명의 관계 데이터를 분석해야 합니다.

링크드인은 이 정보를 데이터웨어하우스(DW)에 담아 분석합니다. 국내에서 가장 규모가 크다는 은행, 카드사, 통신사들의 회원 데이터는 링크드인의 3분의 1도 안 됩니다. 링크드인은 매일 100테라바이트의 데이터를 처리한다고 합니다.

링크드인은 이 많은 데이터를 어떻게 처리할까요? 어제(13일) 서울 삼성동 코엑스인터콘티넨탈호텔에서 열린 ‘테라데이타 유니버스 서울 2012’에는 링크드인의 수닐 쉬르구피 데이터 책임자가 참석해 링크드인의 데이터 처리 방식을 소개했습니다.


그에 따르면, 링크드인은 기본적으로 오라클, 에스터데이터, 테라데이타 등을 이용합니다. 일반 BI나 리포팅은 오라클을 사용하고, DW는 테라데이터를 사용한다고 합니다. 에스터데이터는 패씽(Pathing 분석), 클릭스트림붙석, 사이트 최적화, 데이터 활용 등에 활용됩니다.

쉬르구피 씨의 말에 따르면, ‘알 수도 있는 사람’을 추천하기 위해서 과거의 기술로는 1개월이 걸렸을 것이라고 합니다. 1억 5000명의 관계 데이터를 분석하는 것은 말처럼 쉬운 일이 아니기 때문입니다. 하지만 현재 링크드인은 수시간 안에 이를 할 수 있다고 합니다.

링크드인은 하둡도 활용합니다. 이미지 프로세싱이나 검색 인덱스, 그래프 등 데이터 변형 및 배치 프로세싱에 주로 이를 씁니다.

이 외에 링크드인이 자체적으로 개발한 솔루션들도 있습니다. 카프카(Kafka), 아즈카반(Azkaban) 등이 그것입니다. 이 솔루션들은 내부적인 서비스를 위해 개발됐습니다. 예를 들어 누군가 링크드인에서 KIM 이라는 단어를 검색하면 모든 사람들이 같은 결과를 얻는 것이 아닙니다. 자신의 인맥과 상황에 따라 다른 결과를 얻게 되는 것입니다.

쉬르구피 씨는 “빅 데이터 분석을 통해 혁신적인 데이터 상품을 구축하고, 통찰력을 유지해 나가면서 비즈니스 동력을 찾고 있다”고 말했습니다.

[심재석기자 블로그=소프트웨어&이노베이션]

심재석 기자
webmaster@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널