구글 딥마인드, 네이처에 개발 과정·성과 소개

백지상태서 스스로 바둑 깨우치며 인간 넘어서

사진=딥마인드 제공
[데일리한국 고은결 기자] 인간 최고수들을 꺾은 인공지능(AI) 바둑 프로그램 '알파고'를 넘어선 최신 버전 '알파고 제로'가 공개됐다.

데미스 허사비스 CEO를 포함한 구글 딥마인드의 소속 연구원 17명은 19일(한국시간) '인간 지식 없이 바둑을 마스터하기'(Mastering the game of Go without human knowledge)라는 제목의 논문을 과학 학술지 '네이처'에 발표했다.

알파고 제로는 바둑 규칙 외에는 아무런 사전 지식이 없는 백지상태에서 출발한다. 바둑판만 놓고 '셀프 바둑'을 두며 스스로 바둑의 이치를 깨우치는 식이다. 알파고 제로는 승률을 높이는 좋은 수가 어떤 것인지 스스로 데이터를 쌓으며 바둑을 이해하는 수준이 점점 높아진다.

알파고 제로는 독학 36시간 만에, 지난해 3월 '구글 딥마인드 챌린지'에서 이세돌 9단을 4대 1로 이긴 버전('알파고 리'로 지칭)의 실력을 넘어섰다.

알파고 제로는 독학 72시간 이후, '이세돌 9단 대 알파고 리' 실전 당시와 동일한 대국 조건(제한시간 2시간씩)에서 알파고 리와 대결한 결과, 백 번의 대국에서 모두 이겼다. 이는 알파고 제로가 한 수에 0.4초가 걸리는 '초속기' 바둑으로 혼자 490만판을 두면서 연구한 결과다.

알파고 제로는 40일에 걸쳐 2900만판을 혼자 둔 이후, 올해 5월 현 세계랭킹 1위 커제 9단을 3대 0으로 이겼던 기존의 최강 버전 '알파고 마스터'의 실력도 넘게 됐다. 알파고 제로는 알파고 마스터와의 대국에서 100전 89승 11패를 기록했다.

알파고 제로는 독학 과정에서 인간이 알고 있는 정석을 스스로 깨달았으며, 독특한 정석도 개발했다.

교신저자인 데미스 허사비스와 공동 제1저자 3명 중 한 명인 데이비드 실버는 알파고 제로가 바둑을 독학으로 배웠음에도 기존 버전들보다 더욱 강한 이유는 "인간 지식의 한계에 더 이상 속박되지 않기 때문"이라고 설명했다.

인간의 선입견과 한계에 얽매이지 않았기 때문에 인간으로부터 일부 정석 등을 배우고 인간이 둔 기보도 공부했던 기존 버전들을 능가할 수 있었다는 이야기다.

허사비스는 "우리 프로그램 중 가장 강력한 버전인 알파고 제로는 사람이 만든 데이터를 입력하지 않아도 될 뿐아니라 컴퓨팅 파워도 덜 든다"며 "불과 2년만에 알파고가 얼마나 멀리 왔는지를 보면 놀라울 따름"이라고 말했다.

저작권자 © 데일리한국 무단전재 및 재배포 금지