[전문가 칼럼]인공지능(AI)로봇에 국제미인대회 심사를 맡겼더니...

이준정 서울대 재료공학부 객원교수 "인공지능이 우리의 판단력 진정으로 높일수 있나"

'인공지능의 두 얼굴' 냉철히 바라볼 수 있어야 인공지능 제대로 활용하는 길 활짝 열려

[데일리한국 전문가칼럼 = 이준정 서울대 재료공학부 객원교수] 박근혜 대통령에 대한 탄핵 정국을 바라보는 시각이 극명하게 갈리는 것을 보고 당황스럽다는 생각이 든다.

지극히 상식적인 판단에 근거해 다수가 탄핵이 옳다고 주장을 하는데도 불구하고 일부는 정반대의 시각으로 탄핵이 부당하다는 논리를 내세우고 있기 때문이다.

똑같은 사실에 대해서도 서로 바라보는 시각이 전혀 다르기 때문에 해석이 달라진 것으로 이해된다. 물론 소수 의견이라고 해서 무조건 틀렸다고 단정할 수는 없다. 사람이 간직한 가치 기준은 객관적으로 맞고 틀린다는 이분법으로 재단할수 만은 없기 때문이다.

개인이 '편향된' 방식으로 상황을 해석하는 일은 문화적 규범이나 신념에 따르는 경우가 많다. 문제는 두뇌가 너무 한쪽으로 사고를 한정하게 되면 객관적인 사실 조차 의심하거나 부정하고 그럴듯한 합리화로 자기모순에서 벗어나려 애쓴다는 점이다.

만약에 인공지능이 모두가 공감할만한 객관적인 가치 기준을 알고리즘에 대입한다면 극단적인 논쟁을 줄이는데 AI를 활용할 수 있지 않을까? 그러나 과연 인공지능이 사람보다 더 공정한 판단을 내릴수 있을지에 대해서는 의문을 갖지 않을 수 없다.

지난 9월 인공지능이 심사를 하는 국제미인대회가 처음 개최됐다. 누구나 뷰티에이아이(Beauty AI)에 접속해 스마폰 앱을 다운로드 받은 후 자신의 얼굴사진을 찍어 응모하면 로봇 배심원단이 가장 매력적인 참가자를 선별해 내는 일종의 미인대회다.

판정 기준은 얼굴의 대칭성, 피부색, 주름, 나이, 인종과 같은 객관적인 요소들을 동원했고 나이와 성별을 구분해 심사토록 했다.

이에 전 세계 100여국에서 6000여 명이 이번 인공지능 국제미인대회에 응모(참가)했고, 복잡한 알고리즘으로 무장한 8종의 인공지능 로봇배심원단에 의해 최종적으로 44명이 수상자로 선정됐다. 매우 기이하고 이례적인 국제미인대회가 성사된 것이다.

하지만 로봇배심원단이 최종 선정한 각국의 선남, 선녀들을 보고 많은 참가자들이 주최측에 항의 메일을 보내는 등 대소동이 불거지고 말았다. 참가자들 중 다수가 인도인과 아프리카인이었음에도 불구하고 미인 선발자 대다수가 백인이었기 때문이다.

인공지능 로봇심사단이 뽑은 44명의 미인 선발자 가운데 아시아인은 소수였으며 흑인은 단 한 명에 그쳤다. 인공지능이 채택한 매력의 기준에는 아시아인이나 흑인의 매력이 충분히 반영되지 않았던 셈이다.

알고리즘이 중립적이고 객관적이라고 해도 알고리즘을 학습시킨 데이터 세트 속에는 아마도 인간의 편견들이 가득 들어차 있었던 모양이다.

마이크로소프트가 지난 3월 신세기 챗봇(chatbot)이라고 출시한 테이(Tay)은 인종차별적인 언어를 사용했다는 이유로 네오나치적 견해를 트윗하는 바람에 곧바로 폐기되는 수모를 당해야만 했다.

그런데 마이크로소프트가 그렇게 설계한 게 아니라 사람들이 그런 폭력적인 언어를 많이 구사하기 때문에 챗봇이 사람들 언어를 그대로 흉내 냈다는 결론에 이르게 됐다. 로봇이 사람들의 언어습성 마저 흉내내는 단계에 이른 것이다.

지난 8월 페이스 북은 담벼락에 뉴스를 나열하는 업무를 인공지능에게 통째로 맡기는 모험을 단행했다. 그러자 담벼락 전면에 닭고기 샌드위치로 자위하는 남자에 관한 이야기를 포함해 가짜 기사 및 저속한 이야기들이 최우선적으로 배열되고 말았다.

인공지능 알고리즘은 기사의 진위를 모를 뿐 아니라 기사 내용의 품위나 가치를 모르기 때문에 사람들이 흥미를 보이는 기사들을 우선적으로 편집해 그대로 보여줬던 것이다. 가치 판단이 결여된 뉴스가 얼마나 위험한 것인지 역설적으로 보여준 사례라 할만 하다.

인공지능은 어떤 것이 낯 뜨거운 내용인지에 대해 알지 못하므로 이를 무시하고 단지 노출 빈도나 사람들의 흥미 여부를 측정해 뉴스의 가치로 삼았을 뿐이다. 그러니 인공지능을 탓할수도 없다. 인공지능 학습의 맹점은 바로 노출 빈도가 가치측정의 가장 중요한 기준이라는 점이다.

인공지능은 노출빈도가 낮으면 중요도가 낮다고 평가하는 반면에 노출 빈도가 높은 데이터는 가치가 높다고 평가한다. 폭력적이거나 자극적인 단어가 많이 포함된 데이터를 학습하면 인공지능도 폭력적이고 자극적인 단어를 선호하게 된다는 얘기다.

인간은 누구나 매일같이 소·대변을 보고, 성적 욕구를 발산시키고 싶어 하고, 멋져 보이고 싶어하고, 남에게 지기 싫어하고, 더 많이 차지하고 싶어하고, 자신과 자기 자식이 남보다 우수해야 한다는 생각을 갖고 있다고 할 수 있다.

가면을 쓰고 내뱉는 말과는 달리 '나만은' 본능적으로 특혜를 받기를 원하기도 한다. 엄밀하게 말하면 공정한 것을 싫어한다. 내가 더 배웠기 때문에 판단이 우월하고, 내가 직급이 더 높으니까 내 선택이 우선하고, 권력이 더 많으니까 나를 떠받들어야 하고, 가진 돈이 더 많으니까 우선권이 있다고 여기는 것이 보통의 경우다.

물론 학교에서 가르치는 도덕이나 윤리는 이런 본능적 욕구를 자제하도록 요구한다. 어릴 적부터 학습을 통해 이성적으로 본능을 억제하도록 가르친다. 인간의 치부에 해당하는 사항들은 모두 도덕이란 장막으로 가려 버린다.

그나마 도덕과 윤리를 성실하게 실천하는 사람들도 많지 않다. 데이터 학습을 하면 노출 빈도가 낮다. 따라서 인공지능은 인간의 치부들을 속속들이 학습하면서 나쁜 모습들을 중요하게 습득하게 된다. 결국 인공지능은 인간의 가장 드러내놓기 싫어하는 본능적인 욕구를 우선적으로 선택하는 아주 '나쁜 지능'이 될 가능성이 매우 높아 보인다.

앞서 예로든 인종차별적 미인대회는 농담과 조롱으로 지나칠 수도 있다. 하지만 인공지능이 인간을 대신해 중요한 가치판단을 자율적으로 하도록 만든다면 저질스런 인간의 위선과 편견을 그대로 재현할 가능성이 매우 높다. 윤리적 문제가 개입될 가능성이 있다면 인공지능이 자율적 판단기능을 갖도록 만들면 안 된다는 '이상한 결론'에 이르게 된다.

개발자들은 인공지능이 교과서적인 도덕적 행동과 양식을 묘사하거나 흉내 낼 것을 기대한다. 규범이 될만한 도덕적 행동과 양식을 주입해 주려면 그런 사례를 학습할 수 있는 데이터가 많아야 한다.

문제는 일반인들이 자극적인 언어를 좋아하고, 성적인 자극을 더 원하며, 편법을 선호하고, 이기주의적인 모습을 더 많이 드러낸다면 어떨까? 인간이 그렇다면 우리는 인공지능도 그러한 수준의 인공지능을 가질수 밖에 없다.

기계학습만으로는 도저히 도덕과 윤리를 그려낼 수가 없다. 결국은 법으로 제어할 수밖에 없다.

성문법을 통해 인공지능의 모든 판단을 억제할 수밖에 없다는 뜻이다. 그렇게 된다면 매우 엄격한 법률적 판단을 내릴 수 있다고 본다.

결국 자율적 판단기능을 부여하는 인공지능은 법률적 행동 규범을 제공하는 도구로 발전해 갈 수는 있을 듯 싶다. 나머지는 모두 인간과 기계가 협력하는 반(半)자동식이 될 수밖에 없을 것이다.

인공지능은 데이터를 학습해 정리해 주고 최종 판단은 사람이 도덕이나 윤리적 문제를 고려해 판단하는 방식이다. 그렇다면 다시 인간의 편견이 최종 의사 결정에 작용할 수밖에 없다. 인공지능을 우리가 원하는 방향으로 활용하기 위해서는 이같은 원초적 문제에 대한 해법도 찾아내야 할 것이다.

■ 이준정 서울대 객원교수: 미래예 대한 혜안과 통찰력이 있어 '미래탐험가'로 불린다. 성균관대학교 신소재공학과를 졸업하고, KAIST 재료공학과에서 석·박사를 취득했다. POSCO그룹 연구소장과 지식경제부 기술지원(금속부문)단장을 역임했으며, 현재는 서울대 재료공학과 객원교수로 활동중이다.

다른 기사 보기

상단영역

본문영역