목소리 갖는 인공지능들
목소리 갖는 인공지능들
  • 더피알 (thepr@the-pr.co.kr)
  • 승인 2017.01.11 15:45
  • 댓글 0
이 기사를 공유합니다

[IT이슈] 글로벌 IT업체들 앞다퉈 고도화…음성인식 중심 생태계 주목

[더피알] 예전 공상과학(SF) 영화에서 가장 신기한 것이 말하는 컴퓨터였다. 스탠리 큐브릭 감독이 1968년에 만든 SF영화 ‘2001년 스페이스 오디세이’를 보면 할(HAL)이라는 컴퓨터가 등장해 사람과 대화를 주고받는 신기한 장면이 있다. 그때는 영화니까 가능한 일이라고 치부했지만 그로부터 약 50년이 흐른 지금 현실이 되고 있다.

▲ '2001년 스페이스 오디세이'에 등장한 사람과 대화하는 컴퓨터 할(hal).

2017년 정보기술(IT) 분야에서 가장 주목해야 할 것은 인공지능(AI), 그 중에서도 음성과 관련된 부분들이다. 기기가 사람의 말을 알아듣고 반응하며 나아가 대화까지 가능하면 우리 삶이 지금보다 한 단계 진일보해지기 때문이다.

그렇게 되면 우선 자판으로 입력해야 했던 모든 작업들이 단순히 말하는 것으로 대체될 수 있어 한결 편해진다. 이미 일부 업체들은 이를 시도하고 있다. 애플은 아이폰에 목소리로 간단히 대화를 주고받을 수 있는 ‘시리’를 탑재했다. 애플뿐 아니라 아마존은 일종의 음성인식 비서인 ‘에코’를 내놓았고, 마이크로소프트(MS)의 ‘코타나’, 구글의 ‘구글 홈’도 있다. 이들은 스피커 등에 탑재돼 사람과 목소리를 알아듣고 음악을 틀어주기도 한다.

국내에서도 SK텔레콤이 2016년 9월 같은 기능을 지닌 인공지능 비서가 탑재된 스피커 ‘누구’를 선보였다. KT와 LG유플러스도 올해 음성 인식이 가능한 인공지능 스피커를 발표할 예정이며, 네이버도 ‘아미카’라는 이름의 음성인식 대화 시스템 개발계획을 발표했다.

돌아가신 분이 곁에 있는 듯

그런데 이들 외에 한 발 더 나아간 음성인식 기술을 연구하는 기업들이 있다. 전 세계적으로 유명한 글로벌 IT업체들이 대규모 투자를 진행하거나 준비 중이어서 구체적 기업명을 공개하기는 힘들지만 이들이 연구하는 음성 관련 인공지능 기술은 경탄을 자아낸다.

유럽의 A사가 연구 중인 음성 관련 기술은 바로 목소리 복사다. 특정인의 목소리를 그대로 복사하는 기술은 지금도 널리 활용되고 있어서 흔하다. 그러나 특정인이 이미 말한 내용만 복사할 수 있다. 즉, 그 사람의 목소리로 특정 대화를 만들어 내는 일은 쉽지 않다. 만든다고 해도 아무래도 자연스럽지 않아 쉽게 눈치 챌 수 있다.

이에 비해 A사는 특정인이 갖고 있는 목소리의 특징을 그대로 살려서 자연스럽게 대화를 만들어 낸다. 여기에 적용된 기술은 인공지능과 머신러닝, 즉 기계학습이다. 컴퓨터가 특정인의 목소리를 되풀이해 학습하며 특징을 분석한 뒤 목소리를 만드는 것이다.

▲ 목소리를 가진 인공지능들이 머신러닝을 통해 빠르게 진화할 것으로 예상된다.

특히 이들이 주목하는 것은 이 기술을 활용할 경우 목소리를 이용한 다양한 사업을 할 수 있다는 점이다. 예를 들어 어린 자식을 남겨 두고 어머니가 세상을 일찍 떠났다고 하면, 스마트폰에 저장된 음성 메시지 등을 분석해 학습한 뒤 아이에게 어머니의 목소리로 책을 읽어주는 것이 가능하다. 이를 통해 아이는 항상 어머니가 옆에 있는 듯한 느낌을 받을 수 있다.

이는 곧 여러 분야로 확대가 가능하다. 페이스북의 인공지능 비서가 모건 프리먼의 목소리를 차용한 것처럼 특정인의 목소리를 활용한 다양한 사업이 만개할 수 있다는 뜻이다.

입 모양만으로 완벽한 대화 재현

영국의 B사가 연구 중인 기술은 무음 판독이다. 쉽게 말해 소리가 들리지 않을 정도로 멀리 떨어진 사람의 입 모양만 보고 컴퓨터가 대화 내용을 완벽하게 재현하는 것이다. 마치 스파이 영화의 한 장면 같지만 이미 완성단계에 이르렀다.

이 기술 역시 인공지능과 머신 러닝을 통해 이뤄졌다. 계기는 영국의 BBC 방송이었다. 영국은 청각장애인들의 TV방송 시청을 돕기 위해 의무적으로 TV에 자막처리(캡션) 기능을 내장하고 있으며 방송 또한 끄고 켤 수 있는 자막을 함께 탑재해 내보낸다.

B사의 인공지능 기술은 지난 10년치 BBC의 캡션 방송을 분석했다. 화면에 배우가 대사를 말할 때 밑에 나오는 자막을 분석하는 방식으로 사람의 입모양을 학습했다. 그 결과 사람의 입 모양만 판독이 가능하면 거리에 상관없이 대화 내용을 문자로 재구성해 보여 준다. B사에 따르면 영어의 경우 99.9%의 성공률을 나타내고 있다. 경우에 따라서는 사생활 침해 논란이 있을 수도 있지만 전세계 대형 IT기업들은 B사의 기술에 주목해 투자를 진행하고 있다.

그만큼 2017년 IT분야에서는 음성인식 기술 경쟁이 치열할 전망이다. 특히 구글, 애플, 네이버, 아마존 등은 음성인식 기술을 통해 검색 분야에서 주도권을 잡기 위해 치열한 싸움을 벌일 것으로 예상된다. 검색은 단순 포털에서 키워드 검색에만 국한하지 않는다. 각종 쇼핑몰의 상품 검색, 스마트폰에서 위치 정보 검색, 연락처 검색 등 다양한 분야에 활용될 수 있다.

특히 음성을 통한 검색은 사물인터넷(IoT)의 연결 통로가 될 것이다. 음성으로 각종 IT기기를 작동하고 활용하면서 사실상 가정 내 모든 전자기기를 지배할 수 있다는 의미다. 음성인식이 제대로 발달하지 않으면 IoT의 확장은 한계가 있다. 일일이 각종 기기 조작을 문자 입력이나 버튼 조작으로 다루는 것은 불편함이 따르고 한계가 있기 때문이다. 아마존은 터치 스크린이 결합된 에코를 선보일 계획이며 MS도 하만카돈과 손잡고 2017년 1월에 진일보한 코타나를 내놓을 예정이다.

이렇게 되면 더 나은 음성인식 기능을 가진 업체에 서비스가 집중될 수밖에 없다. 이는 곧 생태계 형성으로 이어진다. 애플이 아이폰을 중심으로 애플 생태계를 구성하고 구글이 안드로이드 중심의 구글 생태계를 구성했듯 앞으로는 음성인식 중심의 생태계가 구성될 수 있다. 생태계 구성은 더 큰 시장 형성을 의미한다. 결국 2017년 음성인식을 둘러싼 기술 및 서비스 경쟁은 미래 플랫폼의 주도권을 잡기 위한 것이면서 각자의 생태계 구축을 위한 싸움이 될 전망이다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.