[대한민국 빅데이터②]“어려운 맵리듀스 대신, 표준 SQL로 빅데이터 처리”
빅데이터는 현재 IT업계의 최대 화두다. 2~3년 전 빅데이터의 중요성이 대두된 이후 기업들은 빅데이터를 어떻게 활용할 것인지에 대한 고민을 안고 있다.
그러나 아직 국내에서 빅데이터 활용은 초기 단계다. 움직임이 빠른 기업들은 빅데이터를 부분적으로 도입해 효과를 본 사례가 일부 나타나기도 했지만 아직 대부분의 기업들은 빅데이터가 무엇인지 학습을 하고 있는 단계다.
디지털데일리는 창간8주년 기획 ‘대한민국 빅데이터 어디로 가야할까’를 통해 빅데이터 활용 전략에 대한 전문가들의 조언과 도입 사례, 주목할만한 빅데이터 솔루션 등을 소개할 계획이다.
이번 3부에서는 최근 각광을 받고 있는 빅데이터 솔루션으로, 빅데이터 플랫폼, SQL 처리 엔진, 빅데이터 관리 도구 등을 살펴본다. <편집자>
3부 기사 순서
② “어려운 맵리듀스 대신 표준 SQL로 빅데이터 처리”
[디지털데일리 심재석기자] 하둡(Hadoop)이 빅데이터의 핵심으로 떠오르면서 기업들에는 하나의 고민이 생겼다. 저렴한 하드웨어를 병렬로 연결하는 하둡파일시스템(HDFS)을 활용하는 것은 긍정적이지만, 맵리듀스(Map Reduce)는 그대로 쓰기 어려웠기 때문이다.
IT업계에서 흔히 ‘하둡’이라 부르는 소프트웨어는 파일시스템인 ‘HDFS’와 데이터분석을 위한 ‘맵리듀스’로 구성돼 있다.
문제는 맵리듀스다. 맵리듀스는 흩어져 있는 데이터를 연관성 있는 데이터끼리 분류로 묶는 맵 작업과 중복 데이터를 제거하고 원하는 데이터를 추출하는 리듀스 작업을 통칭한다. 그러나 일반 기업에는 이를 활용할 수 있는 기술자 및 분석가가 거의 없다.
일반 기업의 IT담당자들에게 가장 익숙한 기술은 SQL(structured query language)이다. SQL은 관계형DB를 다루는 표준기술로, 데이터베이스에서 데이터를 조회하거나 입력하고, 삭제하는 가장 일반적인 방법이다.
이 때문에 사용자가 직접 맵리듀스를 다루지 않고, SQL을 통해 하둡을 활용하는 방법이 강구되고 있다. 일반 SQL을 사용할 수 있게 되면, 하둡 상에서 기존의 온라인분석처리(OLAP) 애플리케이션을 사용할 수 있다는 장점도 있다.
가장 대표적인 것은 아파치재단의 ‘하이브’다. 하이브는 기존의 DB 관리자들에게 익숙한 SQL과 유사한 ‘하이브QL’을 통해 맵리듀스를 사용할 수 있는 방법을 제공한다. 사용자들은 하이브QL로 질의를 던지지만, 하이브는 이를 맵리듀스로 전환해 처리한다. 그러나 하이브는 SQL과 맵리듀스라는 이중과정을 거치기 때문에 성능이 떨어진다는 지적을 받고 있다.
이에 따라 IT 업체들은 하이브의 이런 문제를 해결하기 위해 자체 솔루션을 내놓고, 시장에 어필하고 있다.
가장 먼저 움직이는 곳은 클라우데라다. 클라우데라는 ‘임팔라’라는 SQL 엔진을 개발해 공식 출시했다. 임팔라는 하이브와 같이 ‘하이브QL’을 사용할 수 있지만, 맵리듀스 단계를 거치지 않기기 때문에 성능 면에서 우월하다는 것이 클라우데라 측의 설명이다.
국내에서도 이와 같은 SQL엔진이 오픈소스 프로젝트를 통해 개발되고 있다. 고려대 정보통신대학 컴퓨터학과 DB연구실(지도교수 정연돈)의 최현식·손지훈 연구원이 중심이 돼 진행하고 있는 ‘타조 프로젝트’다.
타조는 하둡파일시스템(HDFS)의 데이터에 SQL 질의를 할 수 있는 솔루션으로, 아파치 재단의 인큐베이션 프로젝트로 선정된 바 있다. 현재는 두 연구원뿐 아니라 국내 빅데이터 기업 그루터가 개발을 함께하고 있으며, 해외의 호튼웍스 기술자들도 참여하고 있다.
위에서 언급한 오픈소스 진영 이외에도 SQL 엔진에 대한 개발은 꾸준히 이뤄지고 있다. 상용 데이터베이스 업체들도 하둡과 자신들의 DB를 함께 활용할 수 있도록 이와 같은 기술을 잇달아 내놓고 있다.
EMC는 그린플럼 데이터베이스와 아파치 하둡 기술을 결합한 피보탈HD라는 기술을 선보였다. 회사 측에 따르면, 피보탈HD는 표준SQL을 통해 하둡 파일시스템에 저장된 데이터 세트를 질의하고 분석할 수 있다. 이를 통해 고급 하둡 개발자 없이 하둡 기술을 활용할 수 있다고 회사 측은 설명했다.
마이크로소프트도 최근 ‘SQL 서버 2012 PDW’을 출시하며 ‘폴리베이스’라는 기술을 소개했다. 회사 측에 따르면, 이는 맵리듀스(MapReduce)를 배울 필요 없이 정형 데이터를 처리하는 것처럼 표준 SQL 쿼리 언어 및 일반 BI 툴을 사용해 비정형 데이터를 다룰 수 있다.
한편 테라데이터의 경우는 조금 다르다. 테라데이타는 하둡이 아닌 애스터라는 자체 플랫폼을 활용한다. 그러나 이 역시 SQL을 통해 비정형 데이터를 데이터에 접근한다는 개념은 유사하다.
이에 대해 빅데이터 업계의 한 관계자는 “하둡 기반의 SQL 엔진이 발전하게 되면 기존의 데이터웨어하우스 플랫폼을 장기적으로 대체해 나갈 수 있을 것”이라고 말했다.
<심재석 기자>sjs@ddaily.co.kr
[IT백과] 생성형AI의 진화 ‘AI 에이전트’, 기존 AI 비서와 뭐가 다를까?
2024-12-21 13:27:59[종합] AI 초격차 확보 공고히 한 오픈AI…12일간 여정 끝엔 ‘쩐의전쟁’ 남았다
2024-12-21 11:15:25오픈AI, o1보다 더 강력한 o3 예고…개발자·연구자 대상 사전 테스트 실시
2024-12-21 08:02:48