[딜라이트닷넷] "문제없지 않나?"…AI시대 데이터 크롤링, 이것만 따져보자
[IT전문 미디어 블로그=딜라이트닷넷] '지브리풍' 인공지능(AI) 이미지가 최근 카카오톡 프로필, 인스타그램 스토리와 같은 소셜미디어를 달구고 있다. 오픈AI 챗GPT를 활용해 스튜디오 지브리 등 유명 애니메이션 화풍으로 인물 사진을 변환하는 것이 유행처럼 번지면서다.
다만 이같은 생성형 AI 이미지는 저작권과 초상권 침해 문제가 꼬리표처럼 따라다닌다. 챗GPT로 대표되는 챗봇 형태의 AI 에이전트(비서) 대중화 시대가 열리면서 새로운 법률적 쟁점이 등장하고 있다. AI 모델 학습 데이터를 구축하는 과정에서 활용하는 '웹 크롤링'에 대한 법적 분쟁 역시 그중 하나다.
법무법인 비트는 지난 9일 스타트업 성장분석 플랫폼 혁신의숲을 통해 'AI시대 데이터 크롤링, 법률적 쟁점'을 주제로 한 분석리포트를 공개했다.
생성형 AI 서비스 모델을 훈련하려면 양질의 데이터가 필요하다. 여기에 쓰이는 트레이닝 데이터와 수집 방식은 AI 비즈니스 핵심이라 해도 과언이 아니다. 많은 기업이 자체 AI 모델 성능과 정확성을 높이기 위해 방대한 데이터를 확보하려고 애쓰는 이유다.
이때 기업들은 웹상에서 데이터를 수집하는 이른바 '웹 크롤링'을 활용하는 경우가 적지 않다. 웹 크롤링은 웹상에 존재하는 여러 웹사이트 정보를 자동화된 프로그램(크롤러 또는 스파이더)을 통해 수집하는 방식을 뜻한다. 비트는 자사 AI 모델 학습 시 웹 크롤링을 사용하는 기업이 알아야 할 법률적 고려 사항으로 ▲대상 서비스 이용약관 위반 가능성 ▲저작권법 위반 가능성 ▲부정경쟁방지법 위반 가능성 세 가지를 들었다.
통상적인 웹사이트나 플랫폼은 이용 약관을 통해 자신들이 제공하는 정보를 이용자들이 무료로 이용할 수 있도록 허용한다. 동시에 그 이용 목적이나 범위를 제한하기도 한다. 이용자가 웹사이트 사용 목적에 맞게 웹사이트 내 정보를 이용하는 것은 별다른 제약이 없다. 하지만 웹사이트 내용을 자동으로 수집하거나 복제하는 행위는 대다수 웹사이트에서 이용약관으로 금지한다.
예를 들어 네이버 이용약관은 '자동화된 프로그램 등을 이용한 게시물 등의 무단 수집'을 명시적으로 금지하고 있다. 당근마켓 역시 '당근마켓이 안내하는 방법 이외의 다른 방법을 사용해 당근마켓 서비스에 접근'하는 행위를 명확하게 금지한다.
비트는 "이와 같은 명시적 금지 조항에도 불구하고 데이터를 크롤링해 사용하는 경우, 해당 서비스 제공자와 관계에서는 이용약관 위반, 즉 계약을 위반한 것이 성립해 민사적인 책임을 질 수 있다"고 설명했다.
웹에 게시된 저작물 자체를 이용함으로써 발생하는 저작권법 위반도 고려해야 한다. 저작권법에 따르면 저작자는 원칙적으로 자신의 창작물에 대한 복제, 배포 등의 권리를 독점적으로 가지며 이를 타인이 이용하려면 명확한 허락을 받아야 한다.
이 때문에 웹사이트나 플랫폼에 특정 콘텐츠(저작물)가 공개돼 있더라도 자동화된 수단을 통해 콘텐츠를 대량 복제하는 행위까지 허용한 것으로 보기는 어렵다. 신문사 웹사이트 경우, 자사 웹사이트를 통해 보통 소비자가 기사를 읽는 것은 허용할 것이나 크롤러를 이용해 10년 치 기사를 모두 복제해 가는 것을 허용했다고 판단할 수는 없다.
개별 콘텐츠 자체가 아닌 이러한 콘텐츠를 레이블링, 분류체계 개발, 검색 알고리즘 개발하는 식의 데이터베이스 제작자 권리도 저작권법 보호를 받는다. 서울고등법원은 구직 정보 플랫폼 사람인에 게시된 채용정보가 크롤링된 사건에서 "사람인은 채용정보 데이터베이스를 체계적으로 관리하기 위해 상당한 투자를 했으므로 회사가 데이터베이스 제작자가 된다"고 판단한 바 있다.
앞선 두 사례에 해당하지 않더라도 부정경쟁방지법 위반 가능성이 남아있다. 누군가가 수집 및 갱신 등을 통해 상당한 투자나 노력을 기울여 만들어 둔 정보를 공정한 관행이나 경쟁질서에 반하는 방법으로 무단 크롤링할 때 부정경쟁행위가 성립할 수 있다.
이러한 부정경쟁방지법 부정경쟁행위는 타 법률(저작권법 등)에서 위반이 성립하지 않는 경우에만 보충적으로 부정경쟁행위인지를 가린다. 비트는 스타트업들이 공개된 자료를 수집 및 이용할 때 충분한 사전 법률 검토와 숙고를 거칠 필요가 있다고 당부했다.
비트는 "AI 모델 진화에 따라 높은 품질 콘텐츠 가치는 더욱 높아지면서 저작물과 콘텐츠를 둘러싼 법적 분쟁 발생 가능성도 전보다 커졌다"며 "일부 스타트업은 크롤링한 정보가 이미 공개된 것이라 문제가 없다고 잘못 이해하거나, 이용약관을 간과하고 데이터를 무단 활용해 법률적 리스크를 초래하는 경우도 있다"고 말했다.
우리은행, 18일 알뜰폰 서비스 정식 출시…청소년 셀프 개통으로 차별화
2025-04-18 13:29:18과기정통AI부 설치법, 당론 채택될까…ICT 거버넌스 개편 논의 본궤도
2025-04-18 13:29:11정부, '삼성 합병 손해' 美 메이슨에 항소 포기…860억 혈세 줄줄
2025-04-18 12:36:01'모바일뱅킹·영업점·콜센터' 고객 만족도?… '신한은행·토스뱅크' 강세 두드러져
2025-04-18 11:19:55청첩장 링크 눌렀다가 '헉'…디지털 금융 인증서까지 탈취한다
2025-04-18 10:12:18