이준정 서울대 재료공학부 객원교수 "음성인식 기술 등이 우리 생활 패턴 바꿀 것"

이준정 서울대 재료공학부 객원교수
[데일리한국 전문가 칼럼=이준정 서울대 재료공학부 객원교수] 중국 베이징 번화가인 왕푸칭(王府井) 인근을 거닐다 보면 사람들이 스마트폰의 화면을 터치하지 않고 음성으로 모든 검색을 처리하는 걸 쉽게 볼 수 있다.

한자(漢子)는 수 천자가 넘고 중국어 발음을 로마자 표기법으로 자판 입력하는 병음 입력법이 있지만 입력 방식을 모르는 사람이 많아서 음성 입력 기술이 일찍이 발달했다.

중국에선 PC가 충분히 확산되기도 전에 모바일 폰이 더 빠르게 확산되면서 거의 7억여 명이 스마트폰을 사용하므로 모바일 인터넷이 미치는 경제적 사회적 영향이 다른 나라에 비해서 매우 높다.

인터넷 검색은 주로 바이두(Baidu)가 개발한 ‘두어(DuEr)’란 이름의 음성인식기술을 실용적으로 잘 활용하고 있다. 사회연결망인 위쳇(WeChat) 등도 음성인식기술을 활용해 입력하므로 음성인식기술은 스마트폰 소통의 핵심기술이 됐다.

바이두는 스탠포드대학교 앤드류 잉(Ng) 교수를 최고과학자로 영입하여 인공지능 기술을 음성 인식기술에 적용한 결과로 ‘딥 스피치 2(Deep Speech 2)’란 기술을 개발해서 북경어, 광동어, 기타 방언들도 구분해내는 수준에 도달했다고 한다.

구글은 이미 오래전부터 음성입력기술을 개발해서 검색창에서 음성입력으로 정보검색이 가능하다. 한국어도 2014년 가을부터 서비스를 제공하고 있다. 대화형 가상도우미 서비스인 ‘구글 나우(Google Now)’는 사용자가 관심 있을 것이라고 추정하는 뉴스를 자동으로 스마트폰에 띄워주는 소프트웨어다.

최근에는 사용자의 관심사를 반영해 뉴스정보를 편집할 수 있도록 ‘관심사 탐색(Explore interest)’이란 기능을 추가로 채택함으로써 사용자가 선호하는 정보 중심으로 개인 맞춤식 서비스를 제공하고 있다.

스포츠, 영화, 텔레비전, 사람들, 주식 등으로 영역을 크게 구분해 놓고 사용자가 선호하는 하부 관심사를 좀 더 자세히 지정할 수도 있어서 사용자가 깊은 관심을 갖는 주제에 집중하여 정보서비스를 할 수 있게 만들었다.

구글은 이미 사용자가 구글검색기에서 검색한 모든 기록을 저장하고 있으며 ‘구글 히스토리(Google history)’에서 확인할 수 있듯이 사용자가 방문하는 위치와 시간 등 사용자의 행동패턴도 분석하고 있기 때문에 ‘구글 나우’에서 ’관심사 탐색‘기능을 추가하면 사용자의 행동패턴과 관심정보를 구글이 모두 확보하는 셈이다.

이런 사용자 정보를 바탕으로 후일에는 사용자의 입력이 없이도 가상도우미가 사용자의 의도나 취향을 먼저 감지하여 특별한 행사참여나 상품구매를 추천하는 서비스로 발전할 가능성이 높다.

아마존이 판매하는 ‘에코(Echo)’는 음성입력이 가능한 스피커이다. 이 스피커엔 ‘알렉사(Alexa)’라고 부르는 인공지능 소프트웨어가 탑재 돼있다. 인터넷 정보검색은 물론이고 지역라디오 방송 연결, 스트리밍 음악 재생, 알람, 해야 할 일 체크리스트를 점검해준다.

뿐만 아니라 피자 배달 주문이나 ‘우버’ 택시호출도 가능하고 전자장비들을 ‘에코’에 사전에 등록해 놓으면 자연스런 대화명령으로 집안의 전자장비들을 조종할 수 있다. 사물인터넷 시대를 실감할 수 있도록 ‘에코’는 대화형 스마트 홈서비스 기능을 톡톡히 해내고 있다.

사회연결망 서비스인 페이스북은 ‘메신저(Messenger)’로 가능한 문자 기반의 가상도우미 ‘엠(M)’을 출시했다. 아직은 캘리포니아에 거주하는 일부 사람에게만 베타 버전을 시험용으로 제공하지만 이를 사용해 본 사람들은 마치 영화 ‘허’의 주인공인 티어도어(Theodore)가 된 느낌을 받았다고 서술한다.

인간과 인공지능 운영체제인 ‘사만다’의 이야기를 다룬 영화 '허(Her)'의 한 장면

지역의 좋은 레스토랑 추천이나 흥밋거리 가십성 정보도 제공한다. 페이스북을 통해 나눈 대화를 기반으로 취향을 알아내고 구매 추천을 하며 카드를 등록해 두면 메신저에서 대금결제까지 가능하다.

더욱 놀라운 점은 사용자를 대신해 ‘엠’이 자동응답서비스에 접속해서 구매 물품을 취소하거나 환불 처리를 자동으로 처리해낸다. 앞으로는 항공사, 온라인 상점, 스트리밍 음악 사이트 등 개별적으로 관련 스마트폰 앱을 직접 작동시키지 않고도 ‘엠’에게 원하는 서비스 처리를 위탁하면 ‘엠’이 알아서 해당 앱들을 가동시켜 사용자가 필요한 일을 대신 처리해 준다고 할 수 있다.

페이스북의 개인비서 서비스는 애플의 ‘시리(Siri)’나 마이크로소프트의 ‘코타나(Cortana)’와 사뭇 다르다. ‘시리’나 ‘코타나’는 싱거운 말대답이나 어설픈 유머로 곤란한 대화를 넘기려하지만 실제로 음식을 주문하거나 자동응답서비스에 전화를 걸어서 문제를 해결하지는 못한다.

‘엠’은 직접 사용자에게 말을 하지는 못하지만 추천하는 식당이나 영화 그리고 비디오 게임 등은 모두 ‘옐프(Yelp)’ 평가점수와 사용자가 미리 입력해둔 좋아하는 장르나 음식종류에 기초해서 이루어진다.

‘엠’은 자신만의 취향을 가진 것도 아니고, 누군가 뒤에서 영향력을 행사해서 치우친 정보를 제공하지도 않는다. ‘엠’은 일처리 능력 면에서 애플의 ‘시리’나 마이크로소프트의 ‘코타나’보다는 사람 흉내를 잘 내지만 공상영화 속에 등장하는 인공지능에 비교하면 아직 원시적인 수준에 있다.

아이비엠이 개발한 왓슨분석기(Watson Analytics)는 자연스런 대화체로 정보를 분석하는 기능이 뛰어난 인공지능 소프트웨어이다. 예를 들어 ‘상품별로 판매고는 얼마인가?’라는 질문을 던지면 ‘달별 판매고 추세’, ‘각 달에 발생한 주문량 및 금액’, ‘수익에 가장 많이 기여한 품목들’이란 자료를 제공해주고 약간 질문내용과 연관성은 낮지만 도움이 될 만한 자료로 ‘시장과 지역별로 판매고 분포’, ‘국가별 수익성 분석’, ‘시장별로 연간 수익성 변화추세’ 등과 같은 정보를 나열해 준다.

질문 한 가지로 서로 비교분석이 가능한 다양한 분석 자료를 동시에 받게 된다. 질문을 하면 바로 신뢰할만한 데이터를 나열해 주므로 비즈니스에 영향을 미치는 인자들을 새롭게 인식하고 추세를 쉽게 판단할 수 있게 해준다. 표시형식을 선택하면 바로 이해하기 좋은 그래프나 도표로 정보를 표현해 주므로 핵심을 짚어내기도 쉽다.

중소기업들이 개발한 대화형 인공지능기술의 수준도 높다. 사운드하운드의 하운드(Hound)는 날씨와 온도, 옐프 레스토랑이나 지역정보검색, 실시간 교통정보를 반영한 내비게이션, 호텔검색, 우버 호출 및 요금추정, 웹 검색, 숫자계산, 환전 및 단위변환, 기타 정보검색이 모두 자연어 대화방식으로 가능하다.

처리속도나 정확성 면에서 ‘구글 나우’보다 더 정확하고 음성인식능력도 뛰어나다고 평가된다. 넥스트 IT의 암(Alme)과 크리에티브버추얼(Creativevirtual)의 V-person 플랫폼은 모두 기업용 인공지능으로 복잡한 질문에 대해서도 다양한 데이터 소스를 호출해서 해결책을 찾아낸다.

여행, 보험, 통신, IT 헬프데스크, 인적자원관리, 세일즈 분야에서 콜센타 업무를 담당한다. 고모멘트(Gomoment)의 아이비(Ivy)역시 자동응답서비스로 고객의 반복적인 질문에 응대하는데 특히 호텔업계에 특화돼 호텔서비스 안내 및 예약업무에 주로 활용되고 있다. 엑스에이아이(X.ai)의 에이미(Amy)와 클라라랩의 클라라(Clara)는 약속일정을 관리하는 인공지능이다.

상대방과 이메일을 주고받으며 가장 편리한 시간과 장소를 잡아 약속을 맺는다. 이밖에도 다양한 음성인식기술들이 모든 분야에서 필수도구로 발달하고 있다.

키보드나 마우스를 사용하지 않고 스마트장비와 음성 대화로 소통하는 기술은 눈에 드러나지도 않는 배경기술이지만 앞으로 모든 사회활동의 기반이 될 가능성이 매우 높아 눈여겨 볼 필요가 있다.

■ 이준정 서울대 객원교수: 미래예 대한 혜안과 통찰력이 있어 '미래탐험가'로 통한다. 성균관대학교 신소재공학과 졸업하고, KAIST 재료공학과에서 석·박사를 취득했다. POSCO그룹 연구소장과 지식경제부 기술지원(금속부문)단장을 역임했으며, 현재는 서울대 재료공학과 객원교수로 활동중이다.

저작권자 © 데일리한국 무단전재 및 재배포 금지