[디지털데일리 이대호기자] 당정이 한국판 데이터 뉴딜의 핵심 정책으로 ‘데이터’를 주목하고 있다.
이해찬 더불어민주당 대표는 지난 19일 K-미래전환 K-뉴딜위원회 데이터댐 정책간담회에서 “4차 산업혁명 시대에서 데이터는 기존 산업의 원유와 비교될 정도로 국가와 기업의 경쟁력을 결정짓는 핵심 자산”이라며 “정부와 당은 ‘한국판 뉴딜’ 중 디지털 뉴딜의 핵심 영역으로 삼고 있다”고 말했다.
이와 관련해 주목받는 분야가 ‘데이터 전처리’다. 데이터를 모으기만 해선 제대로 활용하기가 쉽지 않다. 전처리는 인공지능(AI) 프로젝트에 활용할 수 있도록 데이터를 수집,가공하는 작업을 말한다.
관련 업계에선 AI 프로젝트 상용화에서 가장 시간이 많이 차지하는 작업으로 ‘전처리’를 꼽는다. 데이터 전처리에만 AI 프로젝트에 매달린 70% 이상의 시간이 들어간다는 것이다. 데이터 전처리를 한 번만 거치는 것은 아니다. 기계학습(머신러닝) 알고리즘을 돌리기 위해 최소 한달 이하 주기로 새로운 학습 데이터 제공이 필요하다고 보고 있다.
◆국외에선 일찍이 데이터 전처리 주목
국외에선 데이터 전처리를 일찍이 주목했다. AI 기술 시장이 커지면서 전처리 분야도 덩달아 커질 것을 내다봤다. 맥킨지&컴퍼니는 연평균성장률 27%(2019년~2022년)을 예상했다.
국외 유력 사업자로는 아마존, 피규어에잇(Figure8), 스페어파이브(Spare5) 등이 있다. 아마존이 가장 이른 2005년에 사업을 시작했다.
국내엔 셀렉트스타, 테스트웍스, 슈퍼브에이아이, 에이모, 딥내츄럴, 솔트룩스, 인피닉, 알디프로젝트, 크라우드웍스 등 기업이 있다.
이 가운데 크라우드웍스(대표 박민우)에 업계 현황과 솔루션 자문을 얻었다. 이 회사는 다수의 작업자를 확보해 데이터 전처리 작업을 수행하는 크라우드소싱 방식을 국내 처음으로 선보인 바 있다.
◆데이터 전처리도 기술력 전쟁
크라우드웍스는 국내 특허 출원 100건(등록 11건, 등록 대기 26건, 출원 63건)과 해외 특허 출원 7건 등을 확보했다.
이 분야도 기술력 우위를 점하려는 경쟁이 치열하다. 크라우드웍스는 동종업계 최다 특허를 보유했다는 설명이다. 회사의 누적 투자 유치액은 121억원이다. 네이버(Seed)와 DSC인베스트먼트(Series A), 한국투자파트너스(Series B) 등으로부터 유치했다.
이 회사를 통해 수집가공된 AI 학습 데이터는 네이버, 카카오, 삼성전자, SK텔레콤, KT, LG CNS, 마인즈랩, 우아한형제등, KAIST, 포항공대, 경북대, 한국전자통신연구원 등 200여개 이상의 국내외 고객사들이 활용하고 있다.
크라우드웍스는 온라인으로 연결된 불특정 다수의 사람들이 전처리 작업을 진행하는 ‘크라우드소싱 방식’을 시작으로 사내 구축 형태의 ‘온프레미스(On-Premise)’, 클라우드 서비스 형태의 ‘사스(SaaS)’ 등 클라이언트의 다양한 요구사항에 최적화된 솔루션을 상용화했다.
◆검증된 인력 투입하면 전처리 기간 대폭 줄여
크라우드웍스는 크라우드소싱 방식으로 데이터를 전처리하는 작업 기준, 내부 인하우스 방식으로 평균 9개월이 소요된 작업을 3개월로 줄였다고 밝혔다.
기업 내부에서 10명이 처리해 9개월 걸리던 작업을 크라우드소싱으로 작업자(177명)를 늘렸고 데이터 가공 완료까지 3개월이 걸렸던 사례가 있다. 소요 기간은 60% 줄이면서 데이터 정확도 99.9%를 확보했다고 회사 측은 강조했다.
회사는 ‘잡스(Jobs)’라는 데이터 전처리 작업을 통해 검증된 인재를 소개하고 파견하는 인적자원(HR) 플랫폼을 운영 중이다. 전처리 인력 부족시 잡스를 통해 검증된 인력을 추천, 파견한다. 크라우드웍스 잡스에는 현재 7000여명(2020년 8월 기준)이 등록돼있다. 이를 통해 고객사는 앱과 웹 사용성 테스트, 오프라인 가맹점 확인 등의 대규모 작업 수행도 가능하다.