DW업계에 페이스북 쓰나미 몰려올까
[디지털데일리 심재석기자] 페이스북이 자체적으로 개발한 데이터웨어하우스(DW) 엔진을 오픈소스소프트웨어로 공급할 예정이어서 주목된다. 이를 이용하면 250페타바이트 규모의 데이터를 1초 안에, 늦어도 몇 분 안에 분석할 수 있는 것으로 전해지고 있다.
외신에 따르면, 페이스북은 지난 7일 미국 캘리포니아 본사에서 열린 개발자 컨퍼런스에서 대용량 DW 엔진 ‘프레스토’를 공개했다. 이는 현재 페이스북에서 활용하고 있는 소프트웨어며, 페이스북은 올 가을 오픈소스로 공개할 예정이다.
회사 측은 “프레스토는 현재 250페타바이트 규모”라며 “앞으로 더 커질 DW를 인터랙티브하게 분석하기 위한 것”이라고 소개했다.
페이북에서는 현재 850명 이상의 페이스북 직원들은 매일 320테라바이트를 스캐닝하는 용도로 프레스트로를 매일 사용하고 있다고 전해졌다.
프레스토를 개발하기 이전까지 페이스북은 하이브를 가장 잘 활용하는 회사로 알려져 있었다. 하이브는 하둡파일시스템의 데이터에 SQL로 질의를 할 수 있는 소프트웨어다. 사용자가 SQL 질의를 던지면 하이브는 이를 맵리듀스로 바꿔 처리하는 역할을 한다. 그러나 하이브는 맵리듀스 단계를 거쳐야 하기 때문에 성능 면에서 부족하다는 평가를 받아왔다.
트라버소 페이스북 엔지니어는 “지금까지 페이스북 데이터 과학자와 분석가들은 하이브에 의존해왔다”면서 “그러나 하이브는 배치 처리를 위해 디자인 됐고 너무 느려서 이런 문제를 해결하기 위해 프레스토를 개발했다”고 말했다.
페이스북 측에 따르면, 프레스토를 활용하면 단순한 질의들은 1초 안에 답을 얻을 수 있으며, 복잡한 질의도 몇 분 안에 해결된다. 이는 프레스토가 디스크가 아닌 메모리에서 구동되기 때문이다. 아울러 하이브보다 CPU를 7배 이상 덜 쓴다고 덧붙였다.
페이스북의 이같은 움직임은 테라데이타, EMC, 오라클, SAP, IBM, 마이크로소프트 등 기존의 데이터웨어하우스 솔루션 업체에 위협이 될 전망이다.
이 업체들은 최근 빅데이터에 대한 중요성이 커지면서 하둡파일시스템과의 연동을 강화하고 있는 상황이다. 특히 이들 솔루션은 빅데이터에 SQL 질의를 던질 수 있고, 오픈소스소프트웨어보다 성능의 우월함을 강조해왔다.
그러나 프레스토가 실제로 페이스북의 설명대로 성능을 나타낼 경우 기존 DW의 차별성이 사라질 수 있다.
이에 대해 DW업계 한 관계자는 “오픈소스 DW엔진의 성능과 안정성이 나날이 발전하고 있다”면서 “앞으로 기존 상용DW업계에 위협이 될 것”이라고 말했다.
<심재석 기자>sjs@ddaily.co.kr
[IT백과] 생성형AI의 진화 ‘AI 에이전트’, 기존 AI 비서와 뭐가 다를까?
2024-12-21 13:27:59[종합] AI 초격차 확보 공고히 한 오픈AI…12일간 여정 끝엔 ‘쩐의전쟁’ 남았다
2024-12-21 11:15:25오픈AI, o1보다 더 강력한 o3 예고…개발자·연구자 대상 사전 테스트 실시
2024-12-21 08:02:48