국민 포털로 출발한 네이버가 다양한 플랫폼과 서비스들로 영역을 대폭 확장하고 있다. 이용자 경험을 위한 체질 개선뿐만 아니라, 중소상공인(SME) 및 창작자들과 이용자들을 연결해 디지털 비즈니스 시너지를 도모하는 데 골몰하는 모습이다. 이용자가 보는 앞단의 변화가 이 정도라면, 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다. 이에 디지털데일리는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라는 이름을 붙였다. 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. <편집자 주>
[디지털데일리 권하영기자] 네이버가 이달 중순부터 수천, 수만개의 쇼핑리뷰를 단 한줄로 요약해주는 ‘쇼핑리뷰 요약’ 서비스를 선보인다. 자체 개발한 초대규모 인공지능(Hyperscale AI) ‘하이퍼클로바’가 여기에 적용된다. 스스로 추론하고 문장을 만들어내는 하이퍼클로바가 사용자 리뷰를 추출해 자연스러운 요약문을 생성하는 것이다.
이와 관련해, 쇼핑리뷰 요약 시스템 개발을 주도한 네이버 NLP(자연어처리) 감정분석팀의 서대룡 리더<사진>가 ‘네이버 어벤저스’ 인터뷰에 나섰다. 감정분석팀은 감정분석 API(응용프로그램인터페이스)를 비롯해 사용자의 리뷰를 속성별로 분류하는 테마분석기, 주요 이슈를 자동 추출하는 AI 모니터링 기술 등을 개발하고 있는 팀이다.
“상품을 구매할 때 이 많은 리뷰들을 종합해 한줄로 간단하게 요약해주면 어떨까?”
네이버의 쇼핑리뷰 요약 서비스는 바로 이러한 생각으로 출발했다. 마침 네이버에서 전사적인 역량을 쏟아 초대규모 AI 언어모델 개발을 진행하고 있었고, 올초부터 수개월의 준비 과정 끝에 쇼핑리뷰 요약 서비스에 이를 적용해 상용화하는 데 성공했다. 말처럼 쉽지는 않은 작업이다. 현재 아마존 정도가 테마별 리뷰를 제공하고 있긴 하지만, 네이버와 같이 초대규모 AI 기반 쇼핑리뷰 요약이 가능한 곳은 사실상 없다.
서 리더는 “하이퍼클로바의 도움으로 제품의 특성을 대표하는 리뷰를 한 줄로 제공할 수 있게 됐고, 이는 많은 사용자들이 수많은 리뷰들을 일일이 읽어봐야 하는 번거로움을 줄일 수 있게 된다는 의미”라고 강조했다.
네이버의 쇼핑리뷰 요약은 총 네 단계를 거쳐 진행된다. 서비스가 우선 적용될 가구·인테리어 카테고리를 보면, ▲만족도 ▲착석감 ▲가격 ▲조립 등 각 테마별로 수천 수만건의 사용자 리뷰들을 분류한다. 그 다음은 테마별로 추출된 리뷰 문장 가운데 기준에 맞지 않은 문장을 필터링하는 것이다. 예를 들어 너무 짧은 문장이거나, 무의미한 반복 표현이 포함된 문장, 어법에 맞지 않는 문장이 대상이다.
세번째로, 필터링이 끝난 문장들을 클러스터링(Clustering) 한다. 의미가 유사한 문장들끼리 한 덩어리로 묶는 것인데, 이때 크기가 큰 클러스터들로부터 각각 한문장씩 대표 리뷰를 추출한다. 서 리더는 “클러스터의 크기가 크다는 것은 그만큼 동일한 의견을 갖는 사용자들이 많다는 의미이므로, 이는 해당 제품에 대해 제시된 다양한 리뷰들을 가장 대표하는 표현들이라고 볼 수 있다”고 설명했다. 자연스레 이 과정에서 리뷰의 신뢰를 떨어뜨리는 광고성 어뷰징 리뷰들도 상당 부분 걸러낼 수 있다.
마지막으로 앞 단계에서 추출한 클러스터별 대표 리뷰들을 기반으로 요약을 진행한다. 네이버는 현재 4개의 대표 리뷰를 뽑는데, 이 리뷰들을 초대규모 AI 모델에 입력해 한 문장으로 생성 요약하는 과정을 거친다.
하지만 여기서 난관이 발생한다. 하이퍼클로바는 직접 추론이 가능한 초대규모 AI 모델인데다 워낙 방대한 데이터를 기반으로 학습되었기 때문에, 간혹 사용자 리뷰에 없었던 내용을 직접 만들어내기도 한다. AI가 일종의 ‘거짓 문장’을 만들어낼 수도 있는 것이다. 서 리더는 “관련 연구에 따르면 일반적으로 약 30% 정도 거짓 문장들이 생성된다고 알려져 있다”면서 “따라서 초대규모 AI 언어모델이 생성한 문장이 실제 주어진 리뷰에 있는 내용이 맞는지 확인하는 과정이 반드시 필요하다”고 지적했다.
네이버는 그래서 별도의 팩트체크 기술들을 개발했다. 두 문장의 단어들 간 겹침 정도(overlap)를 표현하는 ROUGE 스코어, 그리고 한 문장이 다른 문장과 논리적으로 관련이 있는지(entailment)를 측정하는 NLI(Natural Language Inference) 스코어를 체크하는 식이었다. 서 리더는 “특히 그중에서도 NLI를 사용했을 때 거짓말을 보다 잘 찾아내는 것을 확인했다”고 밝혔다.
네이버는 쇼핑리뷰 요약 서비스를 향후 더 다양한 서비스로 발전시켜나갈 예정이다. 서 리더는 “초기 기획 단계에선 있었지만 이번에 적용되지 못한 것들이 몇 개 있는데, 그 중 하나가 여러 상품을 동시에 비교하는 것”이라며 “요약 기술이 발전한다면 한 상품에 대해 다양한 의견을 짧은 문장으로 표현해, 여러 비슷한 상품을 한번에 비교하기 쉬워질 것”이라고 말했다. 또한 “한줄로 압축하는 것과 반대로 수많은 리뷰들을 종합해 좀 더 긴 문장으로 제품 특성을 설명하는 상세 정보 페이지를 자동으로 생성하는 것도 가능해질 것으로 보인다”고 언급했다.
서 리더는 “네이버는 이미 우수한 품질의 테마 분석기를 구축해 쇼핑 리뷰를 비롯한 대규모 실서비스에 적용 중인 만큼 타사 대비 기술력 우위를 입증했다고 볼 수 있다”며 “또한 네이버에는 매일 수천만명의 사용자들이 남겨주는 풍부한 리뷰가 있다는 점도 남다른 경쟁력”이라고 자신감을 드러냈다.
이어 서 리더는 “네이버에서 개발 중인 하이퍼클로바 언어모델은 무궁무진한 활용 가능성을 지니고 있다”면서 “앞으로 하이퍼클로바 언어모델을 기반으로 한 참신한 서비스들을 계속 만들어가고 싶다”고 전했다.