정부의 데이터 경제 정책 등 디지털 시대의 ‘쌀’이라 할 수 있는 데이터에 대한 관심이 다시 뜨거워지고 있다. 빅데이터, 분석 등 다양한 데이터 활용 과제가 기업은 물론 사회 전반의 관심사로 떠오르고 있는 상황이다. 금융 및 공공, 그리고 일반 기업에서 데이터가 적재에 초점이 맞춰져 있었다면 앞으로는 빠른 분석과 활용을 위한 효율성, 실시간, 예측 분석 등에 집중될 것으로 보인다. 이를 만족하기 위해선 그동안의 데이터 시스템 구축과는 다른 접근 방법이 필요하다. <디지털데일리>는 데이터를 중심으로 한 정보계시스템의 향후 전개 방향에 대해 알아본다.
[디지털데일리 이상일기자] 기업들은 그 어느 때보다 데이터의 폭발적인 증가를 목도하고 있다. 스마트폰, 사물인터넷(IoT) 등의 발전으로 사무실과 공장에 위치한 수십만개의 센서부터 100%에 육박하는 국내 스마트폰의 보급률에서 발생하는 개인 데이터까지 데이터 증가는 기하급수적이다.
물론 금융권 등 기업 내부에서 증가하는 데이터의 양은 외부 데이터의 증가보다는 적은 것이 사실이다. 하지만 자체적으로 생산되는 데이터의 양도 앞으로는 많아질 수 밖에 없다. 올 하반기 오픈뱅킹 등 금융 결제 생태계 망이 개방되면 이를 연결하는 대외계 시스템도 보완될 수 밖에 없고 여기서 생성되는 정보도 앞으로 금융권이 중요하게 관리해야 하는 데이터가 된다.
최근 정보계 시스템에 대한 클라우드 전환이 타진되고 있는 가운데 정보계시스템 구축에 대해선 다양한 방법론이 오고가고 있다. 다만 아직까지도 폐쇄적인 금융권의 특성상 모든 정보를 밖으로 빼내는 것은 시기상조라는 얘기가 다수다. 대형 데이터센터 등을 자체적으로 보유하고 있는 금융사들이 독자 데이터 시스템을 갖추는 것은 필연적인 선택이다.
이 와중에 주목받는 것이 바로 데이터 레이크(Data Lake)다. 데이터의 호수라는 뜻에서처럼 사일로 형태로 이뤄진 데이터를 거대한 호수에 넣어두고 필요한 부서나 담당자들이 그 때 그 때 빼서 사용하자는 개념이다.
기업데이터웨어하우스(EDW)와 동일하긴 하지만 모으는 데이터의 양이 방대하다는 면에서 데이터 레이크로 불리우고 있다. 이러한 데이터 레이크는 AWS와 같은 클라우드에서도 구현 가능하지만 금융권의 경우 우선 프라이빗 클라우드와 같이 자신들이 통제할 수 있는 방향으로 구현하기 위해 노력하고 있다.
한군데 많은 양의 데이터를 모은다고 해서 데이터 레이크가 되는 것은 아니다. 데이터 레이크는 현업에서 필요에 따라 언제든지 양질의 데이터를 끌어다 쓸 수 있어야 하며 결국 데이터 레이크는 활용 가능한 데이터만을 선별해 저장할 필요가 있다.
업계의 한 관계자는 “수돗물이 강 등에서 취수한 원수를 정수 처리하고 배수지에 모이게 되는데 배수지 정도가 데이터 레이크가 될 수 있을 것”이라며 “단순히 물이 많이 모인 호수라고 해서 바로 먹을 수 있는 물은 아니다. 마찬가지로 바로 활용할 수준의 데이터를 모으는 것이 데이터 레이크의 핵심”이라고 밝혔다.
양질의 데이터를 선별하고 이를 또 모아놓는 작업을 해야 하는 만큼 데이터 레이크는 이전의 데이터웨어하우스, 데이터 사일로와는 또 다른 접근이 필요하다. 신경 쓸 것도 많고 비용도 들 수 밖에 없다는 얘기다.
또, 데이터 레이크와 같은 데이터를 한 곳에 모아두는 토털 데이터 플랫폼에 대해서도 기업마다 성격과 비즈니스 니즈가 다르기 때문에 고민이 필요하다는 지적이다.
삼정KPMG 백승욱 상무는 “필요에 따라 다르기 때문에 데이터 레이크가 반드시 기업에 필요한 것은 아니다”라고 밝혔다. 백 상무는 “기업에서 데이터 레이크로 데이터를 통합해야 하는 질문을 많이 받지만 반드시 그런 것은 아니라고 얘기해 준다”며 “사일로로 운영해야 하는 기업 비즈니스 모델이 있는 것도 사실이다. 무조건적으로 데이터를 모을 필요는 없다”고 밝혔다.
서현컨설팅 김만호 상무는 “금융권을 중심으로 전사 분석/활용기반 통합 마트 확보 후 이를 기반으로 목적별 특화 마트 제공 및 대량 데이터의 비정형 다차원 분석/활용 기반 제공을 위한 시스템 구축에 관심을 가지고 있다”며 “상황에 맞게 취사선택할 필요가 있다”고 말했다.