[디지털데일리 이상일기자] 지난해 4월 한국시장에 진출한 데이터 레이크하우스(Lakehouse) 기업 데이터브릭스(Databricks)가 올해 한국 시장에 대한 투자를 더욱 확대한다고 발표했다.
지난 1월 데이터브릭스 초대 한국지사장으로 부임한 장정욱 데이터브릭스 코리아 대표는 29일 삼성동 그랜드인터컨티넨탈 파르나스에서 열린 기자간담회에서 “아태지역에서 600여명 이상의 임직원을 중심으로 전년 대비 90% 이상의 비즈니스 성장을 이뤄냈다. 한국에서도 1년만에 2배 이상의 직원 확충은 물론 ‘레이크하우스’의 비전에 공감한 파트너들이 비즈니스를 이끌어가고 있다. 지난 한 해에만 LG CNS, 메타넷티플랫폼, CJ올리브네트웍스, 한화시스템 등 파트너 에코시스템이 3배 이상 성장했다”고 밝혔다.
이처럼 국내에서 레이크하우스 도입이 증가하고 있는 가운데, 데이터브릭스는 기술 전문가, 영업, 서포트 엔지니어 등의 고객 지원 및 사업 확장을 위한 인력을 확충해 한국 비즈니스 성장을 가속하고 고객의 성공을 견인해 간다는 방침이다.
데이터브릭스는 데이터 레이크하우스 분야를 개척한 기업이다. 데이터 레이크하우스는 데이터 레이크의 유연성, 비용 효율성 및 확장성을 데이터 웨어하우스의 데이터 관리 기능과 결합해 모든 데이터에 대한 엔지니어링 비즈니스 인텔리전스(BI) 및 AI와 ML(머신러닝)을 모두 지원하는 개방형 통합 데이터 플랫폼이다.
데이터브릭스는 배치 또는 스트리밍 형태로 수집되는 대량의 정형 및 비정형 데이터를 처리하기 위한 기존의 복잡한 아키텍처를 단순화시킨다. 또한, 오픈소스 및 개방형 표준을 기반으로 구축되어 벤더에 종속되는 위험요소를 피하고 유연성을 확보할 수 있다.
더불어, 데이터브릭스는 BI 애널리스트와 AI/ML을 다루는 데이터 사이언티스트들이 통합된 거버넌스 프레임워크에서 데이터 액세스를 관리할 수 있도록 지원할 뿐 아니라, 데이터 엔지니어들이 통합된 환경을 통해 업무 효율을 향상시키도록 돕는다.
장정욱 대표는 “챗GPT와 같은 생성형 AI 발표 이후 데이터 시장도 크게 성장할 것이다. IT와 금융 시장에서 AI 활용이 국한됐다면 이젠 대부분 기업 가치사슬 내에서 다양한 데이터와 AI를 기반으로 계획과 실행이 이어지고 있다. 때문에 기업의 데이터, AI에 대한 준비가 중요해진 상황”이라고 진단했다.
그는 “AI가 발전하기 위해서는 여기에 맞는 데이터 전략이 필요한데 새로운 혁신을 위한 기술 뿐만 아니라 비즈니스 결과를 낼 수 있는 AI와 데이터 전략에 대한 투자가 이뤄져야 한다. 이를 위해 비즈니스 인텔리전스(BI), 데이터웨어하우스(DW)기반 플랫폼, AI와 머신러닝을 기반으로 한 ‘데이터레이크’의 기술 통합이 이뤄지고 있다”고 덧붙였다.
이런 상황에서 국내에서 아모레퍼시픽, 무신사, 데브시스터즈, G마켓, 핀다, 이마트24, 디지털 마케팅 솔루션 기업 메조미디어 등 유수의 기업들이 레이크하우스 플랫폼을 통해 혁신과 비용 최적화를 이루고 있다.
아모레퍼시픽의 이경희 팀장은 “데이터브릭스의 레이크하우스 플랫폼을 선택한 이유는 조직 내 데이터 사일로를 없애고, 수집되는 데이터의 양과 복잡성이 증가하는 가운데서도 비용을 최적화할 수 있는 통합 데이터 플랫폼을 원했기 때문이다. 우리의 목표는 레이크하우스를 기반으로 구축된 글로벌 데이터 뷰티 플랫폼으로 거듭나는 것”이라고 설명했다.
무신사의 유환성 데이터플랫폼 팀장은 “무신사의 데이터 기반 의사결정을 위해 데이터브릭스 레이크하우스를 도입했다. 이로써, 데이터 전문가부터 데이터 기술이 없는 사용자에 이르기까지 조직 전체가 데이터 기반의 의사결정을 내릴 수 있는 환경을 마련했다. 데이터 접근성을 바탕으로 무신사의 온라인 쇼핑 경험을 재정의할 수 있게 됐다”고 말했다.
G마켓의 서대홍 플랫폼 테크놀로지 매니저는 “다양한 선택지가 있었음에도 데이터브릭스를 도입한 이유는 데이터브릭스의 솔루션만이 가진 강력한 성능과 비용 효율성 매문이다. 데이터브릭스 레이크하우스는 확장 가능하고 통합된 클라우드 데이터 아키텍처로, 나날이 증가하는 빅 데이터 요구사항을 충족하는 동시에 총소유비용(TCO)은 낮춰주는 합리적인 솔루션”이라고 말했다.
핀다의 서희 CTO(최고기술책임자)는 “데이터브릭스 솔루션으로 분산된 데이터 분석 환경과 도구를 일원화해 개인정보 관리 및 데이터 통합 가시성을 위한 데이터의 거버넌스를 확보할 수 있게 됐다. 뿐만 아니라, 데이터 레이크와 데이터 웨어하우스 간에 중복된 인프라나 데이터를 제거함으로써, 비용 효올적인 데이터 및 분석 환경에서 운영 효율성을 개선하고 있다”고 말했다.
AI 시장에서 최고의 화두가 되고 있는 오픈AI의 ‘챗GPT’와 같은 생성형 AI를 오픈소스 모델로 보편화하기 위한 전략도 소개됐다. AI비용의 문제와 데이터 프라이버시 및 보안 문제까지 해결할 수 있다는 주장이다.
지난주 데이터브릭스는 새로운 오픈소스 AI 모델 ‘돌리(Dolly)’를 공개했다. 기존의 오픈소스 대형 언어모델(LLM)을 고품질 훈련 데이터로 한 대의 머신에서 단 3시간 학습시키는 것 만으로 챗GPT와 유사한 명령어 추종 기능을 구현할 수 있다는 설명이다.
데이터브릭스 코리아 장경운 상무는 “돌리는 메타가 공개한 연구자를 위한 대규모 언어 모델 ‘라마(LLaMA)’에서 영감을 받은 알파카(Alpaca)의 오픈소스 클론으로 시간이 지나면 상용 챗GPT에 필적하는 성능을 가질 것으로 믿는다. 이를 통해 기업 고객이 스스로 AI모델을 만들어갈 수 있도록 도와주는 첫 버전이라는데 의미가 있다”고 밝혔다.
데이터브릭스 코리아는 오는 4월 25일 ‘데이터+에이아이 월드 투어(Data+AI World Tour)’를 국내에서 개최한다. 본 행사에는 G마켓, 이마트24, 데브시스터즈, (주)한화, 메조미디어, 잡코리아, 핀다, 위버스 컴퍼니, 무신사 등을 포함한 기업들이 연사로 나서 데이터 혁신의 여정을 공유할 예정이다.
이와 함께, 데이터와 A를 활용해 업계를 혁신하고 선도하는 데이터 팀을 선정하는 ‘제1회 데이터브릭스 코리아 고객 어워즈’도 진행된다.
한편 올해 데이터브릭스 코리아는 레이크하우스의 비전 확립과 고객 중심의 차별화된 가치를 실현하고 채용과 교육에 대한 투자를 강화해 성장을 가속화할 수 있는 기반을 마련할 계획이다.
장 대표는 “경쟁력 있는 파트너 생태계와 사용자 커뮤니티 확장을 꾀하는 한편 산업별 접근을 기반한 엔터프라이즈와 디지털 네이티브 부문 내 성장과 인지도 강화에 나설 것”이라고 밝혔다.