솔루션

AI 시대 주도권 놓고 언론과 AI기업 갈등 수면 위로…“돈 내고 써라” 요구 봇물

이종현 기자
[ⓒ 픽사베이]
[ⓒ 픽사베이]

[디지털데일리 이종현기자] 인공지능(AI) 학습 과정에서 발생하는 저작권 침해 문제가 수면 위로 떠오른 가운데, 언론사와 AI 기업과의 갈등이 불거지고 있다.

27일(현지시각) 월스트리트저널(WSJ), CNBC 등은 뉴욕타임스(NYT)가 미국 뉴욕 남부지방 법원에 “자사가 발행한 수백만개 기사가 자동화된 챗봇을 훈련하는 데 활용됐다”며 마이크로소프트(MS)와 오픈AI를 고소했다고 보도했다.

28일에는 한국신문협회(회장 임채청)가 "네이버의 생성형 AI인 하이퍼클로바X가 뉴스 콘텐츠를 학습에 활용하는 것은 부당하다"며 공정거래위원회에 네이버 뉴스 제휴 약관 개선을 요구하기도 했다.

한국을 비롯한 전세계에서 대량의 기사를 기반으로 한 AI 기업의 언어모델 훈련 등에 대해 언론사와 AI기업의 본격적인 대립이 시작된 셈이다.

NYT는 자사의 기사는 연간 수억달러의 비용을 들여 고용한 언론인들이 만들어낸 작품인데, 이에 대한 사전 허가나 보상 없이 무단으로 사용하는 방식으로 손해를 입혔다고 지적했다.

AI가 저작권을 침해한다는 지적은 줄곧 있어 왔다. 유명 코미디언이자 작가인 세라 실버먼은 크리스토퍼 골든, 리처드 카드레이 등이 7월 오픈AI와 메타플랫폼스 등을 상대로 저작권이 있는 자료를 무단으로 사용했다고 소송한 바 있다.

리 매커넌, 칼라 오티즈, 사라 앤더슨 등 3명의 예술가가 AI 기반 이미지 생성 기업 스태빌리티AI, 미드저니 등을 소송한 사례도 있다. 지난 10월31일 해당 소송에 대한 첫 판결이 내려졌는데 미국 캘리포니아 북부 지방법원은 저작권 침해가 아니라고 판결했다. 로이터통신은 3명의 원고 중 2명이 자신의 작품을 저작권청에 등록하지 않은 것이 소송 기각의 주요 원인이라고 전했다.

세계 최대 이미지 제공업체 게티이미지가 스태빌리티AI에 2조달러에 달하는 손해배상소송을 청구하기도 했다. 이미지 1000만장 이상을 무단 이용했다는 것으로, 영국과 미국에서 소송 진행 중이다.

어도비의 생성형 AI '파이어플라이'로 만든 이미지
어도비의 생성형 AI '파이어플라이'로 만든 이미지

먼 나라의 얘기만은 아니다. 한국방송협회는 지난 14일 네이버, 카카오, 구글코리아, 한국MS 등을 대상으로 ‘회원사 저작물 AI 학습 이용 여부 확인 요청 의견서’를 발송했다. 협회 회원사의 콘텐츠를 AI 학습에 이용할 경우 보상 협의가 필요하다는 내용이 담겼는데, 28일 기준 회신한 기업은 없는 상태다.

28일에는 한국신문협회(회장 임채청)가 네이버의 생성형 AI인 하이퍼클로바X의 뉴스 학습에 대한 적정한 보상을 언론사에 지급할 수 있도록 정부가 관련 조항을 제휴 약관에 구체적으로 명시하도록 할 것을 요구했다.

신문협회는 이날 공정위에 제출한 의견서에서 "네이버가 제휴사 공통으로 해당되는 '약관' 동의 방식으로 이용 근거를 마련했지만, 저작권자인 언론사의 개별 이용 허락 절차를 거친 바가 없고, 일련의 절차를 건너뛸 수 있도록 한 것은 불공정 계약에 해당한다"고 주장했다.

불붙는 논란에 AI 기업들도 대응책을 고심 중이다. 지난 22일 NYT는 애플이 생성형 AI 시스템 개발에 필요한 콘텐츠를 제공받기 위해 주요 언론사, 출판사 등과 협상을 시작했다고 밝혔다. 뉴스 콘텐츠 아카이브에 대한 라이선스 확보를 위해 최소 5000만달러 이상의 다년 계약을 제안한 것으로 전해진다.

오픈AI와 저작권 관련 계약을 체결한 언론사도 있다. 오픈AI는 지난 7월 AP통신과 라이선스 계약을 체결한 데 이어 최근에는 미국의 폴리티코, 비즈니스인사이더(BI), 독일의 빌트와 같은 매체를 소유한 다국적 미디어 그룹 악셀스프링거와 계약을 맺었다. 악셀스프링거는 지난 13일 오픈AI가 자사 계열사 기사들을 활용해 AI를 훈련하고 질문에도 답할 수 있도록 협력을 약속했다.

지난 8월 정보통신정책연구원(KISDI)이 발간한 ‘생성형 인공지능과 저작권 현안’에 따르면 “가급적 저작권 이슈에서 자유로울 수 있는 데이터를 사용해야 한다”면서도 “사실상 이를 확인하는 것은 어려운 작업”이라며 빅테크 기업들이 학습 데이터를 공개하지 않는 것은 저작권 문제를 해결하지 못했기 때문이라고 진단했다.

저작권 침해와는 별개로 AI 학습을 위해 이뤄지는 무분별한 데이터 크롤링(긁어모으기)에 대한 규제가 필요하다는 목소리도 나온다. 지난 7월 부산대학교가 무료로 제공 중인 맞춤법 검사 서비스가 AI 학습으로 추정되는 대규모 트래픽에 노출된 것이 대표적인 예다.

당시 부산대 측은 “특정 IP가 해당 검사기를 한달간 500만회 이상 사용하면서 클라우드 비용이 평소대비 1.5배에서 2배가량 증가했다”고 설명했다.

AI 기업들이 자연어 학습을 위해 언론사 데이터를 크롤링하는 것은 공공연한 사실이다. 사이버보안 업계에서는 대규모 트래픽을 발생시킨다는 점에서 분산서비스 거부(DDoS, 디도스) 공격과 마찬가지라고 비판하고 있다.

AI 업계 관계자는 “AI 기술로 새로운 서비스를 생산하려는 중소기업이 늘었다. 이들은 데이터 전처리에 필요한 비용을 줄이기 위해 다른 서비스에 피해를 줄 수 있다”며 우려를 나타내기도 했다.

이종현 기자
bell@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널