소프트웨어

오픈소스 빅데이터 DW엔진 아파치 ‘타조 0.2’ 공개

백지영 기자

[디지털데일리 백지영기자] 지난 3월 글로벌 오픈소스 재단인 아파치의 인큐베이팅 프로젝트로 채택된 ‘타조 (tajo.incubator.apache.org/)’ 0.2 버전이 26일 공개됐다.

타조 개발팀은 26일 오픈소스 빅데이터 웨어하우스 솔루션 타조 0.2를 공개했다고 밝혔다. 특히 이번 버전은
타조의 첫 공식 릴리즈다. 타조는 그동안 네이버 개발자 행사인 데뷰 2013과 미국 실리콘밸리 하둡 사용자 그룹 행사 등에서 소개돼 큰 관심을 받은 바 있다.

타조는 하둡에 저장된 대량의 데이터를 SQL 질의를 이용해 분석하는 SQL-on-Hadoop 계열의 솔루션이다. 대규모 배치 작업과 실시간 인터랙티브 분석에 모두 사용할 수 있는 것이 강점이라고 개발팀은 설명했다.

타조 프로젝트의 리더인 그루터 최현식 박사는 “다양한 유형의 데이터와 질의에서 테스트한 결과, 타조가 하이브보다 평균 3배 이상 빠르며 일부 질의에 대해서는 수십배 이상 빠른 성능을 낸다”고 밝혔다.

SK텔레콤에서는 올해부터 타조를 빅데이터 분석 솔루션으로 활용하고 있다. SK텔레콤 측에 따르면, 타조를 도입 후 하이브를 사용했을 때 보다 평균 3.7배 성능이 향상되고, 데이터 처리에 투입됐던 작업량의 70%를 줄인 것으로 전해진다. 이후 지속적인 개선 결과 SKT는 최근 테스트에서는 하이브의 18배까지 성능을 끌어 올렸다.

한편 현재 빅데이터 데이터웨어하우스 솔루션 시장에는 아파치 하이브를 비롯해 클라우데라 임팔라, 호튼웍스 스팅거, 아파치 드릴, EMC HAWQ, 페이스북의 프레스토 등 다양한 SQL-on-Hadoop 솔루션들이 경쟁하고 있다.

최 박사는
“타조는 실무 환경에서 요구되는 확장성과 내구성을 지원하면서도 빠른 수행 속도를 제공한다”며 반면 임팔라, 프레스토 등의 쿼리 엔진은 메모리 기반으로 처리해 빠른 속도를 제공하지만, 중간 데이터를 디스크에 저장하지 않기 때문에 메모리 크기를 넘어서는 큰 작업을 처리할 수 없고 오류 발생시 질의를 처음부터 다시 실행해야 하는 단점이 있다”고 설명했다.

반면 타조는 하이브가 사용하는 느린 속도의 맵리듀스 대신 자체 분산 처리 엔진을 사용하고, 각 노드 및 디스크들의 부하와 성능 차이를 고려해 동적으로 작업을 할당하는 기능을 적용함으로써 큰 폭의 성능 개선을 이뤘다는 주장이다.

타조의 후원사인 그루터 권영길 대표는
엔터프라이즈 환경에 요구되는 대규모 데이터 처리와 실시간 인터랙티브 분석을 하나의 솔루션으로 해결할 수 있다는 점이 타조의 큰 장점”이라며 “타조는 표준 SQL을 지원할 뿐만 아니라 대부분의 하이브 질의도 그대로 사용할 수 있어, 하이브를 대체하는 빅데이터 DW 솔루션이 될 것으로 기대한다”고 말했다.

타조 개발팀은 더욱 다양한 SQL을 지원하고 테이블 파티셔닝, JDBC, 하이브 메타 스토어 호환 등의 기능을 추가한 새 버전을 12월 중 출시할 예정이다. 현재 0.2버전은 아파치 타조 프로젝트 사이트(tajo.incubator.apache.org/)에서 다운로드할 수 있다.

<백지영 기자>jyp@ddaily.co.kr
백지영 기자
jyp@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널