- 네이버 연구진들, 문자광학판독(OCR) 분야 논문 제출…구두 발표 채택 - 백정훈 제1저자 “이 논문과 공개한 코드 보면 OCR 필드 입문 가능” - 수많은 GPU 실험 필요해 기업 아니면 내기 어려워…“업계 발전 위해 했다”
[디지털데일리 이대호기자] 4323개 제출 논문 중 상위 약 4%만이 얻을 수 있는 기회. 인공지능(AI) 기술 분야의 세계적 권위를 가진 ‘국제컴퓨터비전학회(ICCV) 2019’에서 네이버 연구개발자 2명이 구두(oral) 프레젠테이션을 할 수 있는 기회를 얻었다.
ICCV는 세계 유수의 연구기관과 구글, 마이크로소프트(MS), 페이스북 등 굴지의 정보기술(IT) 기업들이 대거 참석해 최신 연구 성과를 공유하는 행사다. 올해 ICCV는 1987년 학회가 시작된 이래 처음으로 한국에서 열려 더욱 의미가 깊었다. 여기에서 네이버 연구개발진이 제출한 논문 중 4개가 채택됐고 이 중 2개가 구두 발표를 마쳤다.
구두 발표 논문 중 하나인 ‘What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis’(사진 내 문자 인식 분야의 모델 비교 시의 문제는 무엇인가? 데이터셋 및 모델 분석)의 제1저자를 지난 28일 네이버 데뷰(DEVIEW) 2019 현장에서 만났다.
백정훈 연구원(네이버 클로바 AI 리서치 OCR 팀 소속)<사진>은 발표 논문에 대해 “기존 논문에선 OCR 모델 비교의 문제점이 있었다”면서 “워드박스이미지 안에 적힌 텍스트를 읽는 STR(Scene Text Recognition) 분야에서 모델 비교가 일치하지 않았는데, 이것을 통일했다”고 말했다.
각 OCR 모델은 여러 모듈로 구성된다. 기존 논문에선 어떤 모듈이 어떻게 성능에 기여했는지 파악하기 힘들었으나, 네이버 연구진들은 이것을 4가지로 분리하고 모듈별로도 분석했다. 총 24개의 조합을 비교했다. 각 조합마다 최소 5번 이상 실험을 거쳤다. 중간에 시행착오를 겪은 것까지 합하면 적어도 1000번 이상 실험을 돌렸다. 그만큼 대용량의 그래픽처리장치(GPU) 컴퓨팅 파워가 필요했다.
백 연구원은 “시간이 많이 걸렸다”며 “GPU 실험이 많아서 기업에서밖에 못 한다”고 말했다. 덧붙여 “저희가 꼭 해야겠다는 생각을 했고 업계 발전을 위해서 공개했다. 좋은 일을 하고 싶었다”고 소회를 풀었다.
네이버가 제출한 이 논문으로 손대기가 쉽지 았던 OCR 모델·모듈별 성능이 정리됐다. 이를 통해 어떤 조합이 시간 대비 정확도 또는 메모리크기 대비 정확도가 뛰어난지 등이 명확해진 것이다.
백 연구원은 “기존에 탐색되지 않은 조합도 논문을 기준으로 모듈 하나만 바꿨을 때 속도 대비 또는 메모리사이즈 대비 얼마나 정확도가 좋아지는가를 분석할 수 있게 된 것”이라며 “입문한 사람들이 새로 개발할 때 기준을 확실하게 줬다고 보면 된다”고 의미를 부여했다.
그는 논문에 참여한 여러 연구원들에게 공을 돌리고 네이버 클로바 AI 리서치에 소속된 오성준 박사의 조언으로 제목을 정한 것을 떠올렸다. 백 연구원은 “논문 제목이 공격적인데, ICCV 논문 중에서 ‘WRONG(잘못된)’이 들어간 것은 저희밖에 없다. 대신 내용은 담담하게 풀어냈다”며 웃음 지었다.
또 백 연구원은 “OCR 팀 리더인 이활석님의 배려가 있었다”면서 “팀 멤버들이 업무와 동시에 페이퍼(논문)를 쓸 수 있게 했다”고 고마움을 표시했다. 이어서 백 연구원은 “논문을 쓰는 것도 실험 구성도 힘들었는데 같이 봐줘서 나온 것”이라며 “이 논문이 OCR 필드의 촉매제가 되고 발전에 도움이 됐으면 한다”고 말했다.
한편 네이버가 ICCV 2019에 제출, 채택된 논문은 다음과 같다.
◆CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features Classification Robustness and Uncertainty(다양한 이미지 인식관련 모델의 성능을 향상시킬 수 있는 범용의 간단하면서도 효과적인 데이터 증강을 통한 학습기법 제시) 저자: 윤상두, 한동윤, 오성준, 전상혁, 최준석, 유영준
◆What is Wrong with Scene Text Recognition Model Comparisons? Dataset and Model Analysis(OCR을 위한 이미지 내 텍스트 인식 연구에서의 공정한 모델 성능 평가 방법을 제안함으로써 체계적이지 않던 기존 OCR 모델 성능평가에 새로운 대안 제시) 저자: 백정훈, 김기욱, 이준엽, 박성래, 한동윤, 윤상두, 오성준, 이활석
◆Photorealistic Style Transfer via Wavelet Transforms(기존 이미지 스타일 변환 기법의 한계를 극복해 후처리를 사용하지 않고도 빠른 시간 내 실제 사진 수준의 자연스럽게 변환된 스타일의 이미지를 만들어 내는 기법 제시) 저자: 유재준, 어영정, 전상혁, 강병규, 하정우
◆A Comprehensive Overhaul of Feature Distillation(작은 학생 모델의 성능이 큰 교사모델의 성능에 비해 좋지 않았던 기존 정보 추출 방법의 한계를 극복해 ImageNet 데이터에 대한 교사모델보다 더 성능이 좋은 학생모델을 만드는 정보추출 기반 학습방법 제안) 저자:허병호, 김지수, 윤상두, 박효진, 곽노준, 최진영