수애가 걸린 알츠하이머, 빅데이터 분석으로 치료될까
[기획/EMC 빅데이터 전략] ⓹ 오클라호마 의학연구재단(OMRF) 도입 사례
[디지털데일리 백지영기자] 미국 비영리 의학 연구 기관인 오클라호마 의학연구재단(OMRF)은 다양한 질병에 대한 효과적인 치료방법을 찾기 위해 차세대 시퀀싱 장비 업체인 일루미나사의 고성능 유전체 분석기를 도입했다.
‘시퀀싱’은 인간의 유전자 염기서열을 분석하는 기법이다 인간의 유전체는 약 30억 쌍의 염기서열로 구성돼 있다. 이렇게 방대한 유전 데이터가 어떤 의미를 갖는 정보인지를 분석하기 위한 것이 바로 이러한 기술이다.
이를 연구하기 위한 OMRF는 유전체 분석기를 도입한 이후, 엄청난 유전자 정보의 유입을 경험하고 있었다.
◆신기술의 도입으로 인한 데이터의 급속한 증가
오클라호마 의학연구재단(OMRF)은 전례 없는 데이터 증가 속도에 대응하는 동시에 많은 비용과 시간이 걸리는 업그레이드 및 데이터 마이그레이션(이전) 작업을 하지 않고도 가상화 환경을 지원할 수 있는 스토리지 솔루션이 필요했다.
앞서 OMRF는 VM웨어 솔루션을 도입해 가상화 환경을 구축했다. VM웨어 ESX를 실행하는 리눅스 서버를 통해 방대한 양의 유전체 정보가 처리되고 분석되고 있었다.
그러나 이전의 네트워크스토리지(NAS)시스템에서는 분산된 데이터 사일로(silo) 환경에서 유전체 정보를 전달해야 하기 때문에 유전체 서열 분석 작업이 느려졌다. 또한 가상 서버에서 데이터 접속 및 높은 처리량을 제공하지 못하는 상황이었다.
◆OMRF, 아이실론 확장형 스토리지 플랫폼 도입…연구시간 단축
이에 따라 OMRF가 도입한 것이 바로 EMC의 아이실론 스토리지다. 아이실론 IQ 성능 확장형(스케일 아웃) 스토리지 플랫폼을 통해 DNA 서열 분석 파이프라인과 가상화 환경을 확장성이 높고 공유 가능한 고성능 단일 스토리지 풀로 통합했다.
이를 통해 IT 환경을 간소화하고 연구 기간을 크게 단축할 수 있었다.
또한 아이실론 IQ를 통해 필요에 따라 스토리지 시스템을 확장해 중요한 업무들의 고유한 성능 요구 사항을 충족시키는 효과를 거뒀다.
이는 알츠하이머나 루프스, 쇼그렌 증후군과 같은 질병과 관련된 유전자 전구체를 밝혀내는 연구의 운영 효율을 높이는 반면, 비용은 낮출 수 있었다.
급속한 데이터 증가 역시 단일 파일 시스템에서 비용 효율적으로 관리할 수 있었고, 데이터 가 분산되는 것을 방지하는 효과도 얻었다. 가상 서버 및 DNA 서열 분석 업무의 성능을 최대화할 수 있었다는 설명이다.
스튜어트 글랜 OMRF 소프트웨어 엔지니어는 “일루미나의 유전체 분석기와 VM웨어를 실행하는 리눅스 서버를 설치하면서 기존의 스토리지로는 유전체 서열 분석 작업 및 가상데이터 센터의 일상적인 요구 사항을 처리할 수 없었다”고 말했다.
하지만 지금은 아이실론을 통해 향후 수년 간 연구의 핵심 기반이 될 통합 솔루션을 보유할 수 있게 됐다고 강조했다.
이어 그는 “우리 조직에는 데이터 집약적인 유전체 서열 분석 업무를 지원하고 관리가 쉬우며 가상 서버 환경에 필요한 유연성을 갖춘 스토리지가 필요했다”며 “아이실론은 이 모든 것이 가능한 하나의 솔루션을 제공했고 빠르고 정확하게 더 많은 서열 분석 작업을 실행하는 것은 물론, 가상 데이터센터의 요구 사항에 따라 시스템을 확장할 수도 있다. 직접 관리할 사항도 거의 없다”라고 덧붙였다.
◆재해시에도 안정적인 데이터 보호 가능
OMRF는 일루미나사의 유전체 분석기를 통해 얻은 DNA 서열 분석데이터를 아이실론 IQ에 저장하는 동시에 ‘아이스캔 시스템(iScan System)’의 고밀도 단일 유전자변이(SNP) 데이터를 아이실론 클러스터를 사용해 저장했다.
일루미나사의 아이스캔 시스템은 유전체 분석기가 생성한 DNA 서열의 유전적 변이를 분석하는 시스템이다.
중요한 서열 분석 및 분석 프로세스가 24시간 내내 이뤄지기 때문에 OMRF는 이러한 데이터를 빈번하게 복제해 백업 및 재해 복구 성능을 강화해야 했다.
현재 OMRF는 보조 아이실론 클러스터를 오프사이트(백업을 위해 외부에 데이터를 저장한 것)에 배포하고 아이실론 싱크IQ을 사용해 기존 클러스터와 오프사이트 클러스터 간의 데이터를 복제했다.
이를 통해 IT 장애 또는 자연 재해가 발생할 경우에도 즉시 데이터를 사용할 수 있는 안정적인 솔루션을 갖추게 됐다.
OMRF는 싱크IQ를 통해 매일 또는 매 시간 데이터를 복제하고 아이실론의 스냅샷IQ 소프트웨어 애플리케이션을 함께 사용해 완벽한 데이터 보호 및 복제 솔루션을 제공한다.
글랜 OMRF 소프트웨어 엔지니어는 “아이실론은 연구를 가속화하고 가상 환경을 강화하는 동시에 비용을 낮출 수 있게 했다”며 “데이터는 물론 차세대 기술에 대한 투자도 안전하게 보호할 수 있게 됐다”고 설명했다.
◆빅데이터 분석, 게임‧금융사기방지 등 다양한 산업군에 활용
이밖에 EMC 빅데이터 분석 솔루션인 그린플럼 역시 다양한 고객 사례를 확보하고 있다. 대표적인 사례로는 국내 온라인 게임 업체 네오위즈가 게임 사용자 분석을 위해 그린플럼 솔루션을 도입했다.
또한 세계적인 인터넷 전화 업체 스카이프(최근 MS에 인수)는 네트워크 남용을 막기 위한 유저 성향 분석에, 투자은행인 도이치뱅크는 금융 사기 감지‧방지, 용 위험 감소를 위한 신용 등급 설정 및 분석을 위해 그린플럼을 활용했다.
미국의 폭스 인터랙티브 미디어도 광고 타겟 설정 및 마켓 조사를 위한 클릭 스트림(Click Stream) 분석을 위해 그린플럼을 도입했다.
한편 EMC는 빅데이터 시대에 걸맞은 분석 기술의 필요에 의해 생겨난 고급 분석(Advanced Analytics) 분야에서 종사하는 사람이 ‘데이터 과학자(Data Scientist)’들을 양성하고 있다.
현재 데이터 과학은 현재 통신, 디지털 미디어, 금융(은행), 마케팅(최적화) 등의 업무에서 선도적으로 적용, 확산되고 있다.
EMC는 이러한 추세를 반영해 지난 7월 전세계 최초로 ‘데이터 과학자 서밋’을 개최한 바 있으며, 데이터 과학자들로 구성된 애널리틱스 랩(Analytics Lap) 부서를 운영하고 있다. 현재 미국 스탠포드 대학 출신의 한국인 데이터 과학자도 EMC 애널리틱스 랩에서 근무하고 있는 것으로 알려져 있다.
<백지영 기자>jyp@ddaily.co.kr
[IT백과] 생성형AI의 진화 ‘AI 에이전트’, 기존 AI 비서와 뭐가 다를까?
2024-12-21 13:27:59[종합] AI 초격차 확보 공고히 한 오픈AI…12일간 여정 끝엔 ‘쩐의전쟁’ 남았다
2024-12-21 11:15:25오픈AI, o1보다 더 강력한 o3 예고…개발자·연구자 대상 사전 테스트 실시
2024-12-21 08:02:48