[IT백과] 오픈소스라면서 비밀주의? ‘오픈워싱’ 뭐길래
정보기술(IT) 영역에 관한 모든 지식을 압축해 풀이합니다. IT산업에 꼭 필요한 용어들을 소개하고, 살펴보면 좋을 쟁점들도 정리합니다. IT가 처음인 입문자라면 혹은 동향을 알고 싶은 전문가라면, 디지털데일리의 'IT백과'를 참고하세요. <편집자주>
[디지털데일리 이안나기자] 중국 AI 스타트업 딥시크 행보가 AI 업계에 논란을 일으켰다. 딥시크는 지난 2월 ‘오픈소스 위크’ 행사에서 자체 AI 모델 'R1'과 'V3' 코드를 공개하며 “우리가 진정한 오픈소스 기업”이라고 선언했다. 하지만 하지만 업계 전문가들은 핵심 학습 데이터와 훈련 방식이 공개되지 않았다며 “완전한 오픈소스라 보기 어렵다”고 지적한다.
이런 현상을 두고 업계에선 ‘오픈워싱(Openwashing)’이라 부른다. 말로는 개방형 AI를 표방하면서 실제로는 핵심 구성요소를 독점적으로 유지하는 전략이다. 2009년 인터넷 정책 연구자 미셸 손이 환경 분야 ‘그린워싱’에서 착안한 오픈워싱은 클라우드 컴퓨팅의 ‘클라우드 워싱’, AI 초기의 ‘AI 워싱’을 거쳐 이제 ‘AI 오픈워싱’으로 진화했다.
전통적인 오픈소스 정의에 따르면 소프트웨어는 자유로운 사용‧수정‧재배포가 보장돼야 한다. 특히 오픈소스 이니셔티브(OSI)가 정의한 바에 따르면 오픈소스는 소스 코드 접근, 파생 저작물 허용, 재배포 자유, 제한 없는 사용 등 10가지 조건을 충족해야 한다.
오픈워싱은 AI 산업 전반에 퍼진 문제로, 빅테크 기업들도 예외가 아니다. 대표적 사례가 메타 대형언어모델(LLM) ‘라마3’다. 마크 저커버그 메타 최고경영자(CEO)는 라마3를 오픈소스라 주장하지만 OSI 기준에선 그렇지 않다. 구글이 오픈소스모델 라인이라 부르는 ‘젬마’도 코드는 공개했으나 학습 데이터와 훈련 방식은 비공개로 유지하고 있다.
기업들의 오픈워싱 열풍엔 복합적 요인이 작용한다. 우선 오픈소스 인식이 달라졌다. 과거 스티븐 발머 MS 전 CEO는 “리눅스는 암과 같다”고 비난하던 시절과 달리, 지금은 오픈소스가 혁신의 상징으로 통한다. 기업들이 시장에서 차별화된 모습을 보이기 위해 오픈소스의 긍정적 이미지를 마케팅 수단으로 활용한다는 지적이 나오는 이유다.
AI 모델 개발에 들어가는 천문학적 비용도 오픈워싱을 부추기는 요인인이다. 가령 GPT-4 같은 모델 훈련에 수억달러가 들어간다고 알려졌다. 이런 막대한 투자를 한 기업들이 핵심 기술을 모두 공개하기는 현실적으로 어렵다는 의견도 있다. 여기에 유럽연합(EU) AI 법이 오픈소스 모델에 규제 면제 혜택을 부여하면서 ‘오픈소스’ 이름표를 얻고 싶은 기업들 오픈워싱이 더욱 가속화되고 있다.
심지어 ‘오픈AI’라는 이름을 가진 기업도 이런 비판에서 자유롭지 않다. 오픈AI는 설립 초기 “AI 기술을 모두에게 개방한다”는 비전으로 출발했지만, GPT-3부터 모델을 비공개로 전환했고, MS 투자 이후 만들어진 GPT-4는 완전 폐쇄형 모델이 됐다. 최근 샘 알트만 오픈AI CEO가 “더 개방적 방향을 고려하겠다”고 했지만 업계에선 회의적이다.
물론 모든 기업이 오픈워싱을 하는 건 아니다. IBM ‘그래니트 3.0’ 모델은 아파치 2.0 라이선스로 진짜 오픈소스로 언급된다. 리눅스 기업 수세(SUSE)도 30년 동안 엔터프라이즈 제품과 커뮤니티 제품 코드를 동일하게 유지하는 ‘100% 오픈소스’ 전략을 고수하고 있다. 베르너 크노블리히 수세 글로벌 최고수익책임자(CRO)는 최근 한국 기자간담회서 “고객이 우리에게 비용을 지불하는 건 지원‧보안‧인증 등 추가적 가치에 대한 것”이라며 “기능 차별화나 하이브리드 라이선스 모델로 변경할 계획은 전혀 없다”고 강조했다.
오픈소스 업계에 따르면 오픈워싱은 기업 이미지엔 도움이 될지 몰라도 장기적으론 생태계 전체에 독이 될 수 있다. 개발자들은 라이선스 검토에 시간을 낭비하고, 기업들은 예상치 못한 법적 리스크에 노출될 가능성이 커지기 때문이다.
오픈소스 표준화 단체 OSI는 작년 11월 ‘OSAID(Open Source AI Definition)’라는 오픈소스 AI 정의를 공식 발표했다. 이 정의에 따르면 AI 시스템이 오픈소스로 인정받기 위해서는 ‘학습 및 실행에 사용된 전체 소스 코드’를 제공해야 한다.
주목할 점은 학습 데이터에 대한 접근성 부분이다. 현재 OSAID는 학습 데이터 자체를 공개할 필요 없이 ‘숙련된 사람이 실질적으로 동등한 시스템을 구축할 수 있을 정도의 상세 정보’만 제공하면 된다고 규정한다. 미국 IT전문매체 HPC와이어에 따르면 이를 두고 라이트닝AI 루카 안티가 최고기술책임자(CTO)는 “모델 소스 코드가 학습 데이터인데, 그것이 공개되지 않는 오픈소스 AI라는 개념은 모순”이라며 비판했다.
다만 이런 타협은 현실적 제약을 반영한 것으로 보인다. 오픈소스 기준을 너무 완벽하게 고수하면 AI 모델 제작자들이 이를 충족할 수 없고 오히려 역효과가 날 수 있다는 의견들도 있다. 업계 일각에선 오픈소스 AI의 법적‧윤리적 문제를 해결하기 위해 OSAID와 별도로 데이터 관련 라이선스가 추가로 필요할 것이라는 전망도 나온다.
北소행 사이버 공격은 티가 난다…'북한식 표현' 살펴보니
2025-04-04 08:08:33[단독] 유료방송 위기여파 PP로…“콘텐츠 사용료 약 1200억원 감소 전망”
2025-04-03 17:44:35문체부, 글로벌 무대에 'K-안무저작권 안내서' 알린다
2025-04-03 17:15:39[DD퇴근길] 5대 AI에게 물었다…"尹 탄핵심판 결과, 어떨 것 같니?"
2025-04-03 17:13:51