‘빅 데이터’는 클라우드 컴퓨팅과 함께 IT업계의 핵심 화두다. ‘빅 데이터’는 정보기술 산업(IT)이 다루는 대상인 ‘정보’의 종류가 많아지고, 그 규모도 엄청나게 커지는 것을 의미한다. 이는 IT산업 자체가 새로운 시대를 맞이하고 있음을 의미한다.
IT가 바뀌면 IT를 이용하는 기업들도 바뀌어야 한다. 기존의 기술만으로는 ‘빅 데이터’시대에 대처할 수 없다. IT에 뒤쳐지면 비즈니스 경쟁에서 뒤쳐질 수 밖에 없는 정보화 사회에서 ‘빅 데이터’에 대한 대처법을 빨리 찾는 것은 비즈니스 우위에 서는 것이다. 그러나 국내에서는 아직 빅 데이터에 관심을 기울이는 기업이 많지 않은 편이다. 반면 글로벌 경쟁기업들은 이미 빅 데이터 활용을 위한 다양한 방법을 찾고 있다. 국내 기업들도 한시 바삐 빅 데이터에 대한 대처법을 찾아야 할 때다.
이 에 <디지털데일리>는 빅 데이터 시대에 대처하기 위한 방편으로 정보관리 전문기업 EMC의 전략과 기술, 구축사례 등을 통해 빅 데이터에 대처법을 살펴볼 예정이다. 기사는 이번 회를 포함, 총 5회에 걸쳐 출고될 예정이다.
[기획/EMC 빅데이터 전략] ② 한 플랫폼에서 모든 데이터 분석 ‘그린플럼 DCA’
[디지털데일리 심재석기자] 지난 해 7월 EMC는 분석용 DB 업체 그린플럼을 인수했다. 당시 그린플럼은 데이터웨어하우스(DW) 업계의 떠오르는 신예로, 업계에서는 이 인수에 대해 단순히 EMC가 DW시장에 진출하는 정도로 해석했다. DW 시장이 워낙 뜨는 시장이어서, EMC가 이 시장에 뛰어드는 것은 이해 못할 일이 아니었다.
하지만 돌아보면, EMC의 그린플럼 인수는 단순히 DW 시장 진출이라는 의미보다는 ‘빅 데이터’에 대한 포트폴리오를 채워나가기 일환인 것으로 보인다. EMC는 빅 데이터를 저장∙관리하는 스토리지 제품라인과 이를 분석하기 위한 분석 플랫폼 제품 라인을 완비하기 위해 그린플럼을 인수했던 것이다.
◆정형∙비정형 데이터를 한 플랫폼에서…
빅 데이터 전망에 따르면, 앞으로 10년 동안 쌓이는 데이터의 양은 현재의 50배에 달할 것이라고 한다. 특히 이 중 95%는 구조화되지 않은 비정형 데이터라는 점이 숙제다. 소셜네트워크서비스(SNS)에서 쏟아지는 텍스트 데이터를 비롯해, 이미지, 영상, 센서네트워크 데이터 등이 바로 그것이다. 이런 데이터들은 지금도 많지만 이를 기업 비즈니스에 활용하지는 못했다.
EMC는 그린플럼 인수 후 1년 동안이런 어려움에 대한 준비를 해 왔다. 그 결과 지난 9월 단일 인프라스트럭처 내에서 정형∙비정형 데이터를 모두 처리할 수 있는 빅 데이터 분석 플랫폼 ‘EMC 그린플럼 모듈식 데이터 컴퓨팅 어플라이언스(EMC?? Greenplum?? Modular Data Computing Appliance, 이하 그린플럼 DCA)’를 출시했다.
하나의 장비 안에서 정형 데이터와 비정형 데이터를 모두 처리하는 기술은 그린플럼이 처음 선보였다.
그린플럼 DCA의 가장 큰 특징은 모듈식 아키텍처라는 점이다. 기업들은 필요한 모듈을 조합해 정형, 비정형 데이터를 모두 처리할 수 있다. 또 처음에는 작은 투자로 시작해 필요할 때마다 용량을 늘려갈 수 있다.
기술적으로 보면, 무공유(Shared-nothing) 병렬처리(MPP) 기반 관계형 데이터베이스와 엔터프라이즈급의 아파치 하둡(Apache Hadoop)을 한 플랫폼에서 결합한 것이다. ◆“모듈식 아키텍처…필요한 만큼 조금씩 확장”
현재까지 선보인 모듈은 4가지다. ▲데이터베이스(DB) 모듈 ▲ 데이터베이스 대용량 모듈 ▲ HD 모듈 ▲데이터 통합 가속기 모듈 등이다.
그린플럼 DB 모듈은 기존의 DW 어플라이언스라고 이해하면 된다. DB, 서버, 스토리지 등이 최상의 성능을 발휘하도록 통합돼 있으며, 최근 DW 업계의 대세인 무공유 방식의 병렬처리 기술로 구성돼 있다.
DB 대용량 모듈은 전력이나 상면공간을 늘리지 않고 수 페타바이트의 데이터를 관리할 수 있도로 설계된 DW 어플라이언스다. 대규모의 정형 데이터를 정교하게 분석할 필요가 있는 기업이나, 장기적인 데이터 아카이빙이 필요한 기업들이 저렴하게 이용할 때 유용하다.
그린플럼 HD 모듈은 최초의 고성능 데이터 상호 연계 처리 하둡 어플라이언스 모듈이다. 하둡과 그린플럼 데이터베이스를 결합시켜 정형 데이터와 비정형 데이터 모두를 단일 솔루션 내에서 상호 연계 처리 할 수 있다.
EMC는 비정형 데이터의 분석 수요 확산에 따른 발 빠른 대응을 위해, EMC 자체의 하둡 배포판을 출시했다.
그린플럼 데이터 통합 가속기 모듈을 통해서는 모든 BI(Business Intelligence) 애플리케이션과 ETL(Extracting, Transforming, Loading) 툴 등을 그린플럼 DCA 클러스터로 바로 이동할 수 있다.
기업들은 단일의 기본 랙에서 시작할 수 있다. 기본 랙에는 2개의 마스터 서버 -인증, 쿼리 최적화, 각기 다른 세그먼트 서버간 업무량 분산, 데이터의 내장애성(fault tolerant) 메커니즘 관리를 담당- 뿐만 아니라 단일 표준 혹은 고용량 그린플럼 데이터베이스 쿼터-랙 모듈, 다른 3가지 모듈을 위한 공간이 포함돼 있다.
기업들은 그린플럼 데이터베이스, 그린플럼 HD, 그린플럼 통합가속기 모듈을 사용해 쿼터랙(4분의1랙)을 증가시켜 어플라이언스를 확장시킬 수 있다.
제임슨 호튼 EMC 그린플럼 아태지역 솔루션 및 전략 책임자는 “앞으로는 정형, 비정형 데이터 모두 활용하는 기업이 우위에 설 것”이라면서 “다양한 종류의 데이터를 한 플랫폼에서 처리하는 것은 EMC만의 기술”이라고 강조했다.