[대한민국 빅데이터①] 오픈소스 vs. 상용DW, 빅데이터 플랫폼 전쟁
빅데이터는 현재 IT업계의 최대 화두다. 2~3년 전 빅데이터의 중요성이 대두된 이후 기업들은 빅데이터를 어떻게 활용할 것인지에 대한 고민을 안고 있다.
그러나 아직 국내에서 빅데이터 활용은 초기 단계다. 움직임이 빠른 기업들은 빅데이터를 부분적으로 도입해 효과를 본 사례가 일부 나타나기도 했지만 아직 대부분의 기업들은 빅데이터가 무엇인지 학습을 하고 있는 단계다.
디지털데일리는 창간8주년 기획 ‘대한민국 빅데이터 어디로 가야할까’를 통해 빅데이터 활용 전략에 대한 전문가들의 조언과 도입 사례, 주목할만한 빅데이터 솔루션 등을 소개할 계획이다.
이번 3부에서는 최근 각광을 받고 있는 빅데이터 솔루션으로, 빅데이터 플랫폼, SQL 처리 엔진, 빅데이터 관리 도구 등을 살펴본다. <편집자>
3부 기사 순서
① 오픈소스vs상용DW 업계, 빅데이터 플랫폼 전쟁
[디지털데일리 심재석기자] 최근 빅데이터 구현을 위한 플랫폼에 대한 관심이 커지고 있다. 최근 삼성전자, 현대·기아자동차 등 국내의 글로벌 대기업들이 잇달아 빅데이터 플랫폼 구축에 나서고 있기 때문이다.
빅데이터 플랫폼은 데이터를 각종 데이터를 수집, 저장, 관리하는 플랫폼이라고 볼 수 있다. 정형, 비정형, 스트리밍 데이터 등 온갖 종류의 데이터를 하나의 플랫폼에서 관리하고, 이를 기반으로 분석할 수 있다. 즉 데이터의 수집, 저장, 분석, 폐기 등 전 데이터 생명주기를 하나의 플랫폼에서 관리하자는 것이다.
빅데이터 플랫폼 시장은 크게 기존의 데이터웨어하우스(DW) 업계과 신규 빅데이터 전문업체들의 경쟁으로 나눌 수 있다. 기존 DW 업체들은 자사의 DB를 하둡과 연결시키면서 빅데이터 시장에 접근하고 있고, 전문업체들은 대체로 하둡을 중심으로 오픈소스 소프트웨어와 자체 개발 솔루션을 더해 플랫폼화 하고 있다.
◆ DW업계 “빅데이터는 DW의 확장, 하둡은 보완재”
기존 DW들은 모두 빅데이터 플랫폼 시장에 뛰어들었다. 이들은 빅데이터 시대에 하둡은 중요하지만, 하둡만으로는 빅데이터 그림을 모두 완성할 수 있다고 입을 모은다. DW와 같은 기존 분석 플랫폼을 기본으로 두고, 하둡은 비정형 데이터, 스트리밍 데이터 등을 위해 보완재로 활용해야 한다는 것이다.
오라클은 기존의 DB머신 ‘엑사데이터’와 지난 해 새롭게 출시한 ‘빅데이터 어플라이언스’를 결합해 빅데이터 플랫폼을 구축할 것을 제안하고 있다. ‘엑사데이터’는 기존 관계형 DB 의 성능을 극대화하기 위해 하드웨어와 소프트웨어를 결합한 솔루션이며, 빅데이터 어플라이언스에는 하둡, NoSQL 등이 탑재돼 있다. 엑사데이터를 통해 정형데이터를, 빅데이터 어플라이언스를 통해 비정형 데이터를 처리하는 전략이다. 이 외에 엑사리틱스, 엔데카 등을 통해 디스커버리 및 분석까지 빅데이터 처리를 위한 A-Z 솔루션을 보유하고 있다고 회사 측은 강조했다.
테라데이타는 ‘애스터 디스커버리 플랫폼’에 주목해 볼 만하다. 이는 지난 2011년 인수한 애스터데이터를 발전시킨 것이다. 회사 측은 디스커버리 플랫폼에 대해 “ 빅데이터의 저장과 분석, 실행을 한 통에 담아낸 것”이라고 소개한다. 이는 SQL(structured query language) 명령어로 하나의 플랫폼에서 여러 종류의 데이터를 획득, 준비, 분석, 시각화할 수 있다고 회사 측은 강조했다.
EMC 그린플럼은 아파치 하둡과 기존 MPP(초병렬처리) DB 기술을 통합한 ‘피보탈 HD(Pivotal HD)’를 선보였다. SAP는 인메모리 기술을 내세워 속도경쟁을 일으키고 있고, IBM은 퓨어데이터시스템이라는 새로운 어플라이언스와 인포스티어 빅인사이트 등 솔루션을 출시한 바 있다.
◆빅데이터 전문업체들, 오픈소스를 활용해 경쟁력 강화
위에서 언급한 기존 DW 업체들 이외에도 하둡과 오픈소스소프트웨어를 앞세운 새로운 업체들도 빅데이터 시장에서 각광을 받고 있다.
국내 업체로는 넥스알, 그루터 등이 유명하며 해외에서는 클라우데라, 호튼웍스, 맵알 등이 빅데이터 시대의 총아로 떠오르고 있다.
KT클라우드웨어의 자회사인 넥스알은 NDAP(NexR Data Analytics Platform)이라는 플랫폼을 보유하고 있다. 회사 측에 따르면, NDAP은 빅데이터의 수집 저장 분석 검색 변환 등 모든 처리를 하나의 솔루션 기반으로 수행한다.
NDAP은 KT의 가입자 분석 시스템에 적용됐다. 넥스알은 관계형 DB로 처리되던 이 시스템을 NDAP으로 교체한 뒤 5년 TCO 기준으로 567억원의 비용을 절감했다고 설명했다.
그루터는 ‘쿠바(Qoobah)’라는 빅데이터 플랫폼을 공급한다. 회사 측은 쿠바에 대해 “하둡 에코시스템 기반의 최적화된 빅데이터 플랫폼”이라고 소개한다. 오픈소스를 기반으로 하고 있으며, 오픈소스의 부족한 점은 자체 개발해 보완했다고 한다. 이를 통해 통합 데이터 체계를 제공하고, 확장성, 안정성, 성능, 편의성, 비용 등의 문제를 해결할 수 있다고 회사 측은 강조했다.
쿠바를 도입한 대표적 사례는 국내 한 대기업의 보안 로그 분석 시스템이다. 방화벽이나 IDS/IPS, 웹서버를 비롯한 각종 유입로그를 쿠바 기반의 빅데이터 플랫폼에서 대용량 배치분석, 실시간 패턴매칭 분석 등을 실시한다.
클라우데라, 호튼웍스, 맵알의 경우 해외에서는 기존 DW업체들을 위협할 정도로 성장하고 있지만, 아직 국내에서는 활동이 많지 않다. 일부 대기업 프로젝트에 참여하기도 했으나 국내에 지사나 파트너가 없이 본사 직접 기술자가 직접 파견돼야 하기 때문에 어려움이 크다. 최근에는 이들 업체들이 국내에 지사를 설립한다는 소식도 전해지고 있어 주목된다.
◆“내 방식 대로” 독자 노선 솔루션
위에서 살펴본 솔루션들은 하둡을 기반으로 한 것들이다. DW업체들은 자사 DW와 하둡을 연계하는 것이 목적이고, 빅데이터 전문업체들은 하둡과 에코시스템을 활용해 자체 플랫폼을 만들었다.
반면 독자 노선을 걷는 회사들도 있다. 스플렁크가 대표적이다. 스플렁크는 ‘머신데이터’라는 특화된 영역을 공략하고 있다. 머신데이터는 컴퓨를 비롯해 기계가 생산하는 데이터다. 대표적인 것이 로그데이터다.
스플렁크는 복잡한 스킬을 습득하지 않고 몇 줄의 쿼리만으로 분석 결과를 얻을 수 있다는 점에서 각광을 받고 있다. 보안로그분석, IT인프라 성능관리 등의 용도에 활용된다. 다만 스플렁크는 하둡 등 오픈소스를 활용하는 것보다 비용부담이 크다는 단점도 있다.
국내 기업 티베로는 ‘인피니데이타’를 선보였다. 회사 측에 따르면, 이는 대용량 데이터 처리 및 분석이 동시에 가능한 플랫폼으로, 기존 관계형DB의 장점을 활용하면서도 모든 데이터를 분산 저장, 데이터베이스 확장이 자유로운 것이 특징이다.
회사 측은 “NoSQL에서 제공하지 못하는 엄격한 트랜잭션 및 고속 트랜잭션 처리, 실시간 분석, 스탠다드 SQL, 유연한 노드 관리기능을 제공하는 유일한 빅데이터 솔루션”이라고 강조했다.
<심재석 기자>sjs@ddaily.co.kr
[IT백과] 생성형AI의 진화 ‘AI 에이전트’, 기존 AI 비서와 뭐가 다를까?
2024-12-21 13:27:59[종합] AI 초격차 확보 공고히 한 오픈AI…12일간 여정 끝엔 ‘쩐의전쟁’ 남았다
2024-12-21 11:15:25오픈AI, o1보다 더 강력한 o3 예고…개발자·연구자 대상 사전 테스트 실시
2024-12-21 08:02:48