최근 IT업계에서 가장 화두가 되고 있는 단어는 ‘빅데이터(Big Data)’가 아닐까 합니다. 빅데이터는 단순히 양이 많거나 큰 규모의 데이터를 의미하는 것은 아닙니다.
전문가들은 현재 빅데이터의 특징으로 크게 세가지 요소를 들고 있습니다.
바로 데이터의 크기(Volume)와 데이터가 흘러 들어오는 속도(Velocity), 데이터의 형태(Variety) 등 이른바 3V입니다. 즉 대량 데이터가 실시간으로 끊임없이 다양한 형태로 들어오는 것을 ‘빅데이터’라고 부릅니다.
이러한 빅데이터를 저장, 분석하고 이를 통해 새로운 비즈니스 가치를 창출하는 것은 현재 대부분 기업들의 화두입니다.
이른바 ‘데이터=돈’이 되는 시대가 온 것입니다.
빅데이터라는 명칭은 최근 IT업계를 중심으로 얘기 되고 있지만 사실 빅데이터와 데이터 분석은 이미 우리 일상 생활에 널리 펴져있습니다.
특히 빅데이터와 이에 따른 분석을 다소 과장하긴 했지만 최근 제가 봤던 영화나 드라마들을 보면 이미 이러한 빅데이터 분석은 일상으로 깊이 파고든 것으로 보입니다. 물론 현실은 이와 다르겠지만요.
하지만 빅데이터와 데이터 분석을 주요 시놉시스로 사용하는 영화나 드라마를 보면 빅데이터가 정확히 무엇이고 데이터 분석이 얼마나 많은 것들을 가능하게 하는지 알 수 있습니다.
예상하셨다시피 첫 번째 영화는 브래드 피트 주연의 ‘머니볼’입니다. 이미 워낙 많은 분들이 이 영화를 보셨을 테고, 데이터 분석의 중요성에 대해 글들도 많이 돌아다니더군요. 아마도 대표적인 데이터 분석을 통한 성공사례일 것입니다. 소재 자체도 재미있구요. 저는 야구를 그리 즐겨보지 않는 편인데, 이 영화를 보고 “내년부터 슬슬 야구장에 다녀볼까”라는 생각마저 들었습니다.
다들 아시겠지만 이 영화는 미국 메이저리그 오클랜드 애슬레틱스 팀의 실화를 바탕으로 제작된 것입니다. 당시 애슬레틱스의 구단주였던 빌리 빈은 메이저리그 구단 최초로 야구 경력이 전무한 통계학도, 경제학도들을 영입한 후, 선수의 개인 자질 중 팀 승리에 기여하는 요소를 순수하게 데이터를 통해 분석해 냅니다.
영화에서는 예일대 출신의 경제학도가 나오는데, 선수들을 실제로 보지 않고 오로지 데이터만으로 스카우트하는 장면이 자주 나옵니다. 기존 관례처럼 선수 개개인의 외모나 사생활보다는 철저하게 데이터를 바탕으로 다른 구단에서 외면 받던 선수들을 팀에 합류시키고, 이 시즌 동안 애슬레틱스는 4년 연속 포스트 시즌에 진출하는 등 140년 메이저리그 역사상 전례 없는 성과들을 이뤄내게 됩니다.
그런데 재미있는 점은 당시 애슬레틱스가 분석한 데이터양이 우리가 생각하는 것만큼 크지 않았다는 것입니다. 영화 속 경제학자가 분석한 데이터양은 USB 하나에 모두 담길 정도였다고 합니다.
두 번째 영화(애니메이션)는 ‘아더 크리스마스’입니다. 크리스마스를 전후로 많은 어린이들에게 인기를 끌었고, 지금은 상영관이 몇 개 안남았더군요.
이 만화 영화는 “산타는 어떻게 하룻밤에 20억개의 선물을 배달할까?”라는 궁금증에서 시작됩니다.
눈으로 덮인 광활한 북극, 거대한 빙산 아래서 1000년의 역사를 이어온 산타 왕국은 매년 12월 24일만 되면 초비상 상태가 됩니다.
할아버지의 할아버지 때부터 이어져 내려온 산타의 임무, 바로 12월 24일 크리스마스 이브 단 하루 동안 전세계 20억명의 어린이들(12세 미만)에게 선물을 배달해야 하기 때문이죠.
산타왕국의 이른바 최고정보책임자(CIO) 역할을 하고 있는 산타의 첫째 아들은 이 20억명의 어린이들이 갖고 싶어 하는 선물을 알아내기 위해 어린이들이 보낸 편지와 신상정보, 대화들을 분석해 받고 싶은 선물들을 추려냅니다.(한편, 영화의 주인공이자 영화 제목이기도 한 둘째 아들 ‘아더’는 아이들이 쓴 편지들을 읽고 답장하는 일을 합니다. 주요 줄거리는 99.999%의 선물 전달을 완료했지만, 실수로 한 아이의 선물을 빠뜨리는 바람에, 이를 전달하기 위한 고군분투하는 내용입니다.)
영화와 유사하게 현재에도 아마존과 같은 일부 글로벌 기업들이 사람과 사람 사이에 오가는 데이터를 분석해 그들이 받고 싶은 선물을 유추해 내고 있습니다. 대용량 데이터웨어하우징(DW)를 통해 이를 분석하는 것을 시도하고 있는 것입니다.
선물을 배달하는 과정도 재미있습니다. 영화에서는 160만 요정군단은 해지기 시작하는 저녁 6시부터 새벽 4시까지 약 10시간 만에 전 세계에 선물을 배달합니다.
이 때문에 산타 왕국은 마치 미국항공우주국(NASA)과 같은 최첨단 IT시스템을 활용해 한 어린이당 약 18.14초 만에 선물을 전달해야 하죠.
물론 선물을 전달하기 전 요정들은 아이가 착한지 그렇지 않은지 확인하는 절차를 거칩니다.
영화 속 요정이 아이의 뇌를 스캔하면 얼마나 착한 아이인지 알 수 있습니다. 아이들의 생각을 수집한 데이터는 컴퓨터가 처리해 산타에게 어디에 사는 누가 얼마나 착한지 나쁜지 알려줍니다. (지인 중 한명은 함께 영화를 함께 본 9살 딸이 산타의 존재를 더욱 믿게 됐다고 합니다. 심지어 산타에게 영어로 편지를 써야 할지 한참 고민했다고 하는군요.)
세 번째는 영화는 아니고 최근 방영 중인 미드(미국드라마) ‘퍼슨 오브 인터레스트(Person of Interest)’입니다.
이 드라마에서 두 명의 남자 주인공 외에 중요한 역할을 하는 것이 바로 서버입니다. 대규모로 설치된 서버를 이용해 뉴욕 각지에 퍼져있는 CCTV, 전화내용, 교통정보시스템(GIS) 등을 서로 연계 분석해 혹시 있을지 모를 테러 위험을 사전에 방지하는 시스템이 이 드라마의 큰 줄기인데요.
드라마에서는 테러 위협이 있는 사람들만 분석하다보니 나머지 분석 결과, 즉 테러와는 관련 없지만 일반 범죄에 관련 있는 사람들을 외면하는 정부에 반기를 들고 사전에 위험이 인지된 사람들을 보호, 또는 감시하기 위해 벌이는 주인공들의 이야기가 펼쳐지고 있습니다.
쉽게 말하자면 전 사회적인 리스크 관리시스템을 구축해놓고 사전에 위험으로 인지되는 데이터에 해당하는 사람들을 보호하거나 추적하는 것입니다.
위에 언급된 세가지 영화와 드라마 모두 데이터 분석이 내용의 중요한 축으로 등장하고 있습니다. 물론 데이터를 어떻게 분석하는지에 대한 알고리즘을 어떻게 짜느냐에 대한 자세한 내용은 등장하지 않습니다.
현실적으로 가능한 것이 아니기도 하고 극적 재미를 위해 빅데이터 분석을 집어넣은 만큼 전문적인 IT 기술을 설명하고 있지는 않지요.
하지만 영화나 드라마에서 주요 소재로 사용될 만큼 빅데이터와 데이터 분석은 재미있기도 하고 실생활과 많은 연관이 있으며 적용될 분야도 넓은 것이 특징입니다.
이미 글로벌 업체들은 빅데이터를 활용하기 위한 분석 기술을 발전시키기 위해 일반 개발자들을 대상으로 분석 알고리즘 경연대회를 펼치는 등 다양한 방법을 모색하고 있습니다.
스토리지 업체 EMC의 경우 현재 데이터 과학자(data scientist)들로 구성 ‘애널리틱스 랩’이라는 부서를 운영하고 있습니다. 이들은 기업들이 빅 데이터로부터 통찰력을 얻어낼 수 있도록 조언을 하고, 교육을 하는 역할을 하는데요. 경제학, 통계학, 심리학 등을 전공한 박사급 인재들이라고 하네요.
물론 단순히 통계학이나 경제학에 대한 지식 뿐만 아니라 다양한 IT기술과 엔지니어링에도 능해야 한다는군요.
어찌됐든 위에 소개한 영화나 드라마 중 가장 비현실적인 것은 ‘퍼슨 오브 인터레스트’가 되겠지만, 얼마 있지 않으면 실생활에서 쓰이게 될 날도 멀지 않아 보입니다.