소프트웨어

알파고 개발자 “난공불락 바둑, 목표는 AI로 인간 이기는 것”

최민지

-데이비드 실버, 이세돌 9단과 대국 앞둔 알파고 소개
-신경망 통해 인간처럼 경우의 수 추론…승률 높인다

[디지털데일리 최민지기자] 알파고(AlphaGo)가 강해졌다. 과거부터 인공지능 분야에서 난공불락으로 여겨졌던 바둑까지 도전장을 던지며 이세돌 9단까지 긴장하게 만들고 있다.

전세계가 주목하는 세기의 대결, 이세돌 9단과 알파고와의 대국이 하루 앞으로 다가온 가운데 알파고 핵심 개발자인 데이비드 실버 구글 딥마인드 리서치 사이언티스트는 “바둑은 인공지능(AI)에 있어 가장 큰 도전이며, 우주 원자보다 복잡한 경우의 수로 인해 난공불락으로 여겨져 왔다”며 “하지만, 구글의 바둑 인공지능 프로그램인 알파고의 목표는 인간을 이기는 것”이라고 밝혔다.

8일 실버 교수는 경기창조경제혁신센터에서 인공지능을 주제로 개최된 소프트웨어정책연구소 컨퍼런스에 참석해 알파고에 대해 직접 소개하며 이세돌 9단과의 대국에 관심을 더욱 모으게 했다.

◆알파고, 다음 바둑 수 놓기 위해 1초에 10만수 생각=이날 실버 교수는 이세돌 9단과 알파고의 경험치 및 훈련량 등을 비교하며, 알파고가 훈련량 및 연산 능력 등에서 우세하다고 자신했다.

실버 교수는 “알파고는 2살밖에 안됐으나 지난 한 해 동안 집중 프로젝트를 진행해 10만 대국을 겨뤘으며, 셀프 대국까지 포함하면 이보다 더 많다”고 말했다.

실버 교수에 따르면 프로 바둑기사는 다음 수를 놓기 위해 초당 100개의 경우의 수를 고려하는데 알파고는 10만건의 경우의 수를 검색할 수 있다. 연산 능력의 경우 알파고는 100개 이상의 GPU에 달한다.

실버 교수는 “인간 바둑기사와 닮아가기 위해 몬테 카를로 트리 검색을 통해 성공적으로 시작해 아마추어 기사를 이길 수 있는 수준으로 올라갔다”며 “프로 바둑기사를 이기기 위해 더 발전된 형태에 도달해 지난해 10월 판후이를 이겼으며, 이세돌 9단과 겨루게 됐다”고 설명했다.

이어 “세계 바둑 최강자와의 어려운 싸움을 통해 알파고의 발전정도를 확인할 수 있을 것”이라며 “그러나, 이세돌과 같은 전문기사와 같은 기력 수준은 아니라 승패에 대해 예측하기는 시기상조”라고 덧붙였다.

◆알파고 핵심, 인간의 직관 역할 ‘신경망’=이날 실버 교수는 알파고의 핵심으로 신경망 네트워크를 꼽았다. 알파고는 대국에 있어 모든 경우의 수를 검색하지 않고 가치망과 정책망을 통해 가능성 있는 수만 선별적으로 뽑아내 승률을 높이고 있었다.

이는 인관의 직관을 인공지능을 통해 구현하기 위한 방식으로 보인다. 바둑은 체스와 달리 바둑알의 가치가 모두 같고 천문학적 경우의 수가 나올 수 있기 때문에 기존처럼 무작위적 대입방식으로는 인공지능이 승산을 보기 어렵다.

실버 교수는 “사람은 직관을 통해 형세 파악을 할 수 있어 누가 우세한지 알 수 있지만 기계는 그렇게 할 수 없다”며 “이에 우리는 신경망 네트워크를 통해 직관을 알파고에 적용한 것”이라고 제언했다.

알파고는 정책망 네트워크를 통해 바둑돌을 놓을 수 있는 위치로 검색 범위를 좁히며, 가치망 네트워크로 가장 승산 있는 수를 선택해 승률을 예측한다. 이처럼 가능성 없는 수는 버리면서 검색 후보군 자체를 줄여 좋은 수를 골라내는 것이다.

이러한 신경망을 통해 알파고는 사람의 움직임을 모방하도록 학습한 후 자가학습과 강화학습을 진행했다. 스스로 시행착오를 거치면서 네트워크 정교화를 꾀한 것이다. 또, 3000만건에 달하는 트레이닝 데이터를 입력시켜 4주간의 훈련을 거쳤다. 이에 알파고는 기존의 44%를 넘는 57% 확률로 사람의 움직임을 예측할 수 있었다.

◆“알파고, 딥마인드 여정의 첫 걸음”=실버 교수는 알파고를 딥마인드 여정의 첫 걸음으로 정의했다. 이번 대국을 통해 더 높은 수준까지 발전하게 된다면 범용 목적의 제품을 만들어 새롭게 학습할 수 있는 길이 열리게 된다는 것이다.

실버 교수는 “기계 학습을 통해 새로운 내용을 배울 수 있는 범용 기계를 내놓는 것이 목표”라며 “구글 딥마인드는 영국 국립보건국과 협업을 통해 개개인 의료데이터를 학습해 맞춤형 치료방법을 제공하려고 한다”고 강조했다.

또, 실버 교수는 강화학습과 지도학습을 통해 각 가정에서 과업을 수행할 수 있는 로봇도 나올 수 있다고 전망했다.

실버 교수는 “지금 알파고는 바둑 두는 기계이지만, 이는 시작점일 뿐”이라며 “최종적으로 많은 사람들이 보다 의미 있는 방식으로 쉽게 정보에 접근하고, 사람들의 목표를 효과적으로 달성하고 지원할 수 있는 방법을 고안하는 것이 궁극적 목표”라고 전했다.

<최민지 기자>cmj@ddaily.co.kr

최민지
cmj@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널