소프트웨어

‘SQL 온 하둡’의 가능성에 대한 두 가지 의견

심재석 기자

[디지털데일리 심재석기자] SQL 온 하둡(SQL on Hadoop) 기술이 논쟁의 장으로 들어왔다. 신생 빅데이터 업체들이 하둡 데이터를 쉽게 분석할 수 있도록 ‘SQL 온 하둡’ 기술 개발에 열중하고 있는 가운데, 기존 업체들이 이 기술에 대해 ‘한계가 있다’고 지적하고 나섰다.

‘SQL 온 하둡’은 하둡에 저장된 데이터를 분석하기 위해 맵-리듀스라는 프로그램 대신 관계형DB에서 사용하는 SQL를 활용하는 기술이다. 맵-리듀스는 복잡하고 어렵기 때문에 익숙한 SQL로 하둡 데이터에 접근하자는 것.

‘하이브’가 가장 대표적인 ‘SQL 온 하둡’이다. 하이브는 SQL과 유사한 ‘하이브 QL’이라는 문법을 통해 하둡의 데이터를 분석할 수 있다. 사용자가  SQL을 던지면 하이브는 이를 자체적으로 맵-리듀스로 변환해 실행한다.

그러나 하이브는 표준SQL과 일치하지 않고 다소 성능이 떨어진다는 비판을 받았다. 이 때문에 클라우데라 임팔라, 호튼웍스 스팅거, 아파치 드릴, EMC HAWQ, 페이스북의 프레스토, 그루터의 타조 등이 하이브를 대체하기 위해 등장했다. 이 솔루션들은 표준SQL을 지원하고 성능을 향상시키는 것에 집중하고 있다.

권영길 그루터 대표는 “‘SQL 온 하둡 기술’은 빅데이터 플랫폼의 차세대 핵심기술”이라며 “기존 하둡의 응용면에서도 엔터프라이즈급 성능을 제공함으로써 기존 시장의 대체와 함께 신규시장을 빠르게 확대하는데 일조할 것”이라고 말했다.

그러나 ‘SQL 온 하둡’을 가지고 복잡한 분석을 하는 것은 한계가 있다는 지적도 나오고 있다.

한국인포매티카 임정혜 부장은 “’SQL 온 하둡’ 이종 데이터 조인(join) 등 기능에 제약이 있다”면서 “하둡에 있는 비정형 데이터에 대한 심도 깊은 분석을 하려면 이를 정형화해 데이터웨어하우스에 올려야 한다”고 말했다.

인포매티카는 비정형 데이터를 정형화 하는 툴인 ‘H파서’  등의 솔루션을 제공하고 있다.

마틴 윌콕스 테라데이타 플랫폼 및 솔루션 부문 총괄 이사도 “하둡 상에 SQL엔진을 올리는 시도는 고성능의 병렬 SQL엔진을 구축하는 것을 과소평가 하고 있는 것”이라고 말했다.테라데이타는 SQL로 분석할 필요가 있는 데이터는 하둡이 아닌 자사의 에스터데이터라는 DB에 저장할 것을 권하고 있다.

이에 대해 그루터 권영길 대표는 “(SQL 온 하둡에 대해) 잘 모르고 하는 이야기”라며  “당장 안되는 몇개의 함수는 있겠지만,계속 못하는 것이 아니라 다 지원하는 방향으로 가고 있다”고 말했다.

한편 가트너는 다수의 소스로부터 정보를 한 곳에 모으는 로지컬 데이터 웨어하우스가 단일 데이터 웨어하우스 모델을 대체하게 될 것이라고 전망한 바 있다.

<심재석 기자>sjs@ddaily.co.kr

심재석 기자
webmaster@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널