[AI 산업열전③]차별화된 AI 서비스는 데이터가 결정…“공공데이터 개방 확대 절실”
[디지털데일리 오병훈기자] 2025년, 인공지능(AI) 열풍이 차츰 가라앉는 분위기가 형성되면서 본격적인 AI 서비스 옥석 가리기가 본격화되고 있다. AI 기업들은 각종 기업 간 거래(B2B), 소비자 대상 거래(B2C) 서비스를 개발하는데 속도를 내면서 실질적으로 도움이 되는 AI 찾기에 온 역량을 쏟기 시작한 모습이다.
업계·학계·정치권 모두, 차별화된 AI 서비스를 개발하려면 공공데이터 개방 확대가 필수적이라고 강조한다. AI 모델의 성능을 높이는 것뿐 아니라, 이를 학습시킬 양질의 데이터를 충분히 확보하는 것도 절대적으로 중요하기 때문이다.
특히 정부가 축적한 공공데이터에 대한 관심이 높아지고 있다. 정부 데이터는 주기적으로 쌓이고 있으며, 통일된 양식으로 저장돼 다양한 서비스 개발의 원천 데이터로서 가치가 크다는 설명이다.
양질 학습데이터 먹고 자란 AI가 살아남는다
국내 AI 기업 개발자들의 최대 고충 중 하나는 바로 AI 모델에 학습시킬 데이터를 찾기가 쉽지 않다는 것이다. 특히 ‘양질의 한국어 데이터’가 없는 것이 가장 큰 고민거리라는 설명이다. 영어권 국가에서 AI를 개발하는 기업 입장에서는 특별한 공수를 들이지 않더라도, AI 학습 데이터를 찾을 수 있는 곳이 많다. 미국 영국 뿐 아니라, 다양한 국가에서 영어로 된 데이터가 쏟아져 나오고 있기 때문에 AI에게 학습시킬 수 있는 데이터 양도 절대적으로 많기 때문이다.
반면, 국내 기업들은 주로 국내에서만 한국어 데이터를 확보해야 하며, 데이터 규모가 작아 충분한 학습 데이터를 구축하기가 쉽지 않은 실정이다. 데이터 양과 질에 따라 AI 성능 편차가 크게 벌어진다는 점을 생각하면, AI 서비스를 개발하는 과정에서도 데이터를 끌어모으는 일에 상당한 비용을 투자해야 한다는 이야기다.
결국 국내 기업들이 대규모 데이터를 확보할 수 있는 경로는 정부가 제공하는 공공데이터에 한정되는 경우가 많다. 공공데이터는 저작권 문제가 비교적 자유롭고 축적량도 많아, 데이터 확보에 목마른 AI 기업에는 ‘오아시스’ 같은 존재다.
다만, 일부 산학계에서는 공공데이터 개방 확대 및 데이터 질 제고가 필요하다는 목소리가 지속되고 있다. 아직까지 정부가 공공데이터 개방에 소극적인데다가, 현재 축적되고 있는 데이터들이 AI에 학습시키기에는 적절하지 않은 상태라는 지적이다.
이해민 의원(조국혁신당)은 최근 기자들과 만나는 자리에서 기업 관계자들 고충을 공유하며 “많은 AI 기업들과 만나 이야기를 나누다보니, 공공데이터 개방 확대가 절실하다는 의견을 들을 수 있었다”며 “AI는 데이터에서 시작해 데이터로 끝난다. 공공데이터는 저작권 문제에서 비교적 자유롭다는 장점이 있어, AI 기업들에게 매우 중요한 재원이다. 지금보다 더 많은 분야 행정 데이터를 개방할 필요가 있다”고 강조했다.
김종원 광주과학기술원(GIST) AI대학원장은 정부 및 기관의 데이터 축적 현황과 관련해 AI 발달로 주목받고 있는 ‘디지털트윈’ 효과를 제대로 누리기 위해서는 데이터가 서로 상호작용할 수 있는 수준으로 정제돼야 한다고 조언했다.
김 원장은 “많은 기업 및 기관에서 데이터를 축적하는 데 급급해서 아무렇게나 데이터를 쌓아도 나중에 쉽게 바꿀 수 있다고 생각한다”며 “AI에 적용하려면 여러 데이터가 상호 작용할 수 있도록 체계적으로 정리돼야 한다. 만약 무질서하게 쌓아 두면, 두세번 정제 작업을 거쳐야 해 시간을 낭비하게 된다”고 지적했다.
공공데이터 양질 잡기 위해 팔 걷은 정부…AI 위한 공공데이터 혁신 속도
정부도 이같은 의견을 수렴해 데이터 정제 및 저장 체계를 고도화하는데 집중하고 있다. 정부는 지난 2013년 공공데이터법 시행을 시작으로 현재까지 총 9만여건 공공데이터를 ‘공공데이터포털’을 통해 제공한 바 있다. 그러나 포털이 노후화되면서 시스템과 데이터 품질 등에 대한 개선 요구가 이어졌고, 정부는 최근 ‘공공데이터포털 고도화 1차 사업’에 착수했다.
정부는 이번 사업을 통해 포털이 AI 시대에 맞는 서비스를 제공할 수 있도록 조치하고, 시스템의 안정성과 개방체계의 효율성을 높이는데 집중한다. 이용자가 찾는 데이터를 정확하게 제공할 수 있도록 포털에 AI 기반 데이터 검색 방식과 추천 서비스도 도입한다는 계획이다.
더 나가 모든 공공데이터를 통합 관리하는 ‘국가공유데이터 플랫폼’ 사업에도 착수했다. 각 기관이 보유한 모든 공유데이터를 관리하기 위해 개별 기관이 공유데이터를 쉽게 생성·관리할 수 있는 표준 시스템을 배포할 예정이다. 또, 개별 시스템을 데이터 플랫폼과 연계해 데이터 공유·검색·활용 편의성을 높이는데 집중한다.
앞서 언급된 공공데이터포털을 비롯해 범정부 데이터 분석시스템, 추후 개발 될 디지털플랫폼정부 허브(DPG 허브) 등 데이터 공급이 필요한 공공플랫폼과 연계할 수 있는 기반도 마련한다. DPG 허브와 연계해 민간에서도 개방 데이터를 쉽게 활용할 수 있도록 하고, AI 학습용으로 활용할 수 있는 데이터를 생성하기 위한 원천데이터 제공도 지원하겠다는 계획이다.
공공데이터 개방 분야도 확장 중에 있다. 정부는 최근 100만명 규모 바이오 빅데이터를 구축하는 ‘국가통합바이오빅데이터구축사업’을 본격 추진하기로 했다. 해당 사업은 국민의 자발적 참여·동의를 바탕으로 임상 정보·공공데이터·유전체 데이터 등 의료 데이터를 개인 중심으로 통합·관리하는 사업이다.
먼저 오는 2028년까지 희귀질환자·중증질환자·일반참여자 총 77만2000명 참여자를 모집해 데이터를 구축하는 1단계 사업을 추진한다. 이어지는 2029년부터 2032년까지는 2단계 사업을 진행, 총 100만명 바이오 빅데이터를 수집하고 정제하는 과정을 거칠 예정이다.
[일문일답] 알뜰폰 20GB 1만원 요금제 나올까…실현 가능성은?
2025-01-15 15:45:13KB국민은행, 6년 만에 총파업 할까… 노조 "성과급 300%+1000만원 달라"
2025-01-15 15:29:12'가상자산' 공시 도입 등 2단계 입법 논의 착수… 금융위 "법인 실명계좌 허용 마무리 단계"
2025-01-15 15:20:52외산 꺽고 삼성 '모니모' 테스트 자동화 사업 따낸 시메이션… 어떤 강점?
2025-01-15 15:13:44