네이버가 지난해부터 모바일 메인 개편에 이어 동영상 중심 사용자경험을 위한 체질 개선, 창작자가 검색의 주인공이 되는 ‘인플루언서 검색’ 등 여러 굵직한 변화를 추진하고 있다. 이용자가 보는 앞단의 변화가 이 정도라면 개발 뒷단에선 보다 과감하고 치열한 고민이 필요하다.
<디지털데일리>는 네이버를 움직이는 기술 리더들을 마블 캐릭터에 빗대 ‘네이버 어벤저스’라 이름 붙이고 이들의 연속 인터뷰를 통해 국내 최대 인터넷 기업의 속 깊은 고민과 핵심 경쟁력의 원천을 짚어보고자 한다. ▲빅데이터 & AI 플랫폼 ▲검색엔진 ▲엣지서버 ▲SRE ▲데브옵스 ▲음성인식 ▲클로바더빙 ▲클린봇2.0에 이어 ▲뷰(VEIW) 검색 모델링 개발진을 만났다. <편집자 주>
[디지털데일리 이대호기자] “하루 약 30만여 개 질의에서 약 2500만 건의 문서가 새로운 노출 기회를 갖게 됐습니다. 이렇게 문서 확장을 통해 새롭게 노출된 좋은 신규 문서는 기존 일반 문서보다 더 높은 사용자 반응을 얻고 있습니다.”
네이버는 검색&기술(Search&Tech) 블로그에서 뷰(VIEW) 검색에 포함된 ‘문서 확장 기술’을 적용한 이후 변화를 이렇게 소개하고 있다. 블로그와 카페, 포스트 등을 이루는 사용자제작데이터(UGC)의 원천인 창작자(크리에이터)들에게 좋은 기술이다. 쉽게 말해 내 창작물이 검색 결과에 잘 노출되도록 해준다.
이를 위해선 신조어, 오타, 유의어, 축약어 등 이용자가 편하게 쓴 질의도 찰떡같이 알아채 결과를 보여줄 수 있어야 한다. 예를 들면 ‘커여운 댕댕이’를 검색해도 ‘귀여운 강아지’로 질의 의도를 알아채고 결과를 노출하는 식이다. 반대도 마찬가지다.
이와 관련해 네이버 이윤동 소셜데이터엔지니어링 리더<사진 오른쪽부터>, 이지현 서치서비스플래닝 프로젝트매니저(PM), 박지현 소셜서치랭킹 연구원이 <네이버 어벤저스> 인터뷰에 나섰다.
◆‘조각내고 확장하고’ 뷰(VIEW) 검색이란
뷰(VIEW) 검색의 주요 알고리즘이 ‘다이아(D.I.A.)’다. 얼마나 검색 의도에 충실한 문서(Deep Intent)인지 분석(Analysis)해 랭킹에 반영하는 기술 모델로 올해 네이버는 보다 진일보한 ‘다이아플러스(D.I.A.+)’ 기술도 적용했다.
이 알고리즘은 ▲사용자 질의 의도를 분류하고 ▲문서 본문을 조각내 패턴을 분석한 뒤 ▲문서 속 표현의 교정과 확장을 진행한다.
이윤동 리더는 “문서에 들어있는 정보를 실시간 파악하긴 어렵다”며 “문서를 태깅(tagging)해놓고 키워드 매칭 내용을 검색 결과에서 보여주게 된다”고 말했다. 이용자가 인테리어 비용을 검색하면 실제 비용 부문을 보여줄 수 있는 이유가 바로 문서 본문 조각인 스니펫(snippet)을 태깅하기 때문이다.
네이버는 대량의 문서와 다양한 형식의 문서, 여러가지 패턴 분석 모듈을 처리하기 위해 ‘하마(HAMA)’라는 시스템을 구축했다. 개발진은 “문서와 피처를 하마 같은 큰 입으로 먹겠다는 의미”로 소개하며 웃었다.
하마 시스템에서는 정규식이나 HTML 분석과 같은 기본적인 문서 형태 분석 외에도 의미 기반의 문서 분석(named entity tagger 등)을 활용해 어떤 패턴을 가지고 있는지 태깅하고 의미 있다고 판단되는 부분을 스니펫 후보로 추출해 놓는다. 이 모든 과정은 문서 생성 직후 빠르게 처리되고 있다는 게 네이버 설명이다.
스니펫 태깅 이후 매칭 과정이 있다. 문서확장 알고리즘이 작동하게 된다. 박지현 연구원은 “검색 품질과 직결되는 부분”이라며 “데이터량을 많이 확보할수록 좋다”고 전했다.
네이버는 자연언어처리 딥러닝 모델인 버트(BERT)를 통해 문맥상으로 의미가 유사한 단어를 대체하는 기술(lexical substitution)을 사용하고 있다. 뉴스, 책, 블로그, 백과 등으로 스니펫을 확장할 후보셋을 만들어놓고 시맨틱 유사도를 계산해 대체어를 찾는다. 사용자에 따라 ‘방탄’으로만 검색해도 BTS(방탄소년단)를 검색할 수 있는 이유다.
검색 랭킹은 텍스트 매칭 뿐만 아니라 질의와 문서의 수많은 의미 기반 속성(semantic features)들로 결정된다. 다이아플러스(D.I.A.+)로 문서와 질의를 더 구체적으로 표현할 수 있게 되면서 연관도 높은 문서를 잘 보여줄 수 있게 됐다.
◆다이아플러스, 공격적 적용
다이아플러스 알고리즘 적용 이후 긍정적인 사용자 반응이 감지됐다. 통합검색에선 기존 대비 평균 18.3% 높은 반응이 나왔고 경험이 녹아든 시공비용, 시술비용 등 문서에선 50% 이상 더 높은 긍정적인 반응이 나타났다. 자체 진행한 품질 평가에선 기존 대비 평균 11% 높았고 평균 32.2% 높은 스니펫 만족도가 확인됐다.
개발진도 자신감을 얻었다. 이지현 PM은 “이미 높은 수치에서 더 높은 사용자 수치가 나왔다”며 “공격적으로 연구하고 적용할 예정”이라고 밝혔다.
현재 가격정보, 추천정보, 시점트렌드 정보에 다이아플러스 기술이 반영돼 있다. 앞으로 날짜, 시간, 위치, 순서, 절차, 방법 등 정보에도 적용을 확대한다. 이 PM은 “모든 사용자들이 진성 경험을 찾고 싶어한다”며 “하나의 문서에서 다양한 니즈를 분석해주면 랭킹에 활용할 수 있다”고 말했다.
이 리더 등 개발진은 “앞으로 UGC 검색 영역은 계속 변화해나갈 예정”이라며 “단순히 검색 결과에 노출되는 특정 검색 영역 내의 UI와 랭킹을 바꾸는 것을 넘어서 사용자가 필요한 정보에 맞춰서 검색 영역을 세분화하고 사용자의 뾰족한 니즈에 맞춰서 검색 영역을 재구성하는 식으로 바꿔나갈 예정”이라고 전했다.
◆데이터 많고 배울 게 많은 환경…인재 기다립니다
전 세계적으로 AI 기술 인재 수급 경쟁이 벌어지는 가운데 뷰 검색 개발진도 ‘인재’에 목말라했다. 이 PM은 “네이버에서 경험할 수 있는 것이 많다”며 “네이버도 안에서 벤처처럼 자유도가 높고 각자 중요업무를 잘 할 수 있게 시스템이 마련돼 있다”고 강점을 소개했다.
이 리더는 “이 조직에 와서 노력한다면 검색 결과가 바뀌는 것도 확인해볼 수 있다”며 “피드백이 좋아지는 쾌감을 느낄 수 있을 것”이라며 본인 경험을 전달했다. 또 “일본 검색도 글로벌 검색도 다 나간다”며 “신규 서비스하고 싶은 친구들이 다양한 경험을 쌓을 수 있다”고 덧붙였다.
네이버는 국내 최대 빅데이터 기업이기도 하다. 각 부문 개발진들이 강조하는 것도 ‘어마어마한 데이터셋으로 다양한 실험이 가능하다’는 점이다. 이 리더도 “학술적인 실험도 하고 서비스에도 적용할 수 있다”며 “연구조직이면서 서비스도 같이 하는 조직의 장점”이라고 부연했다.
박 연구원은 “배울 게 많은 환경”이라며 “주변에 이직하는 가장 큰 이유가 ‘배울 게 없다’는 것인데, 네이버에선 훨씬 더 잘하는 분들이 많아 도움도 되고 환경적으로도 뒷받침이 잘 돼 있다. 조직 분위기도 좋다”고 전했다.
이 PM은 “실제 일을 하면서 의외라고 할 수 있는 부분이 사명감을 느낀다는 것”이라며 “한국에서도 구글이 1등이라하면 어떻겠나”라고 기자에게 묻기도 했다. 이어서 “검색 기술을 놓치면 나중엔 누구도 따라갈 수 없다”며 “AI로 전환되는 기본적 백그라운드가 검색 기술과 지금까지 쌓아놓은 기술적 기반”이라며 “그것에 대한 사명감이 있다”고 힘줘 말했다.