본문 바로가기

정보/경제, 금융, 카드

기업 철학 닮은 ‘AI 페르소나’, 음성 AI, “넌 살아있냐” 질문에 각기 다른 답변 / HMI(Human-Machine Interface), 스마트 스피커 시대, BERT, Bidirectional Encoder Representations from Transformers

사람과 한 공간에서 활동하는 스마트 스피커와 가정용 로봇·챗봇 등에는 사람과 자연스럽게 소통할 수 있는 인공지능(AI)의 탑재가 필수적이다. AI가 사람들이 보다 편하게 소통하는 대상이 될 수 있도록 기업들은 다양한 방식으로 AI에 인격을 부여하고 있다.


대화 단계로 진화한 인터페이스
사람은 가전·컴퓨터·로봇 등의 각종 기계와 다양한 방식으로 소통한다. HMI(Human-Machine Interface)라고 불리는 사람과 기계 간의 소통 방식은 기계의 작동을 사전에 정하는 프로그램밍을 거쳐 지금은 키보드·조이스틱·터치패널 등과 같이 사람이 기계와 직접 접촉해 명령하는 방식이 사용되고 있다. AI가 대폭 발전한 최근에는 사람의 언어를 매개체로 하는 대화나 몸 동작, 얼굴 표정 등을 매개체로 하는 시각 인식을 통한 소통 방식의 개발도 빨라지고 있다.


한창 개발 중인 인터페이스인 대화는 사람들이 가장 편하게 느끼는 소통 방식이다. 대화는 다른 소통 방식에 비해 장점이 많다. 사람의 의도를 가장 선명하게 전달할 수 있고 단어 하나에서부터 단어들이 조합된 문구와 문장들을 통해 구체적이고 풍부한 의미를 담을 수 있다.

사람 간에도 재미 없고 지루한 대화는 오래가지 못한다. 융통성이 결여된 객관성만으로는 대화의 호응도를 높이기 어렵다. 상대방이 아무리 정확하게 응답해도 흥미를 주지 못하면 사람들의 관심은 적어진다. 대화를 자연스럽게 만들고 흥미를 끌게 하는 요소에는 대화 주체의 성격이나 개성, 즉 인격(페르소나)도 포함된다.


사람 간의 대화에서 나타나는 이 같은 양상은 사람과 AI 간의 대화 과정에서도 그대로 재현된다. 더구나 사람은 종종 동물이나 기계에 인격을 부여하기도 하고 상대방의 어휘나 발음, 말하는 방식을 보고 성격을 추론하는 경향도 보인다. 이런 점을 감안하면 소통 대상인 AI가 고유의 페르소나를 가지는 것은 생각보다 훨씬 중요하다고 할 수 있다.


페르소나를 지닌(것처럼 여겨지는) 음성 AI의 잠재력을 보여주는 연구는 종종 발표돼 왔다. 알렉사가 탑재된 에코로 스마트 스피커 시대를 연 아마존은 사람과 알렉사 간의 대화 내용을 분석한 결과 흥미로운 점을 발견했다. 2014년 공개된 연구 결과에 따르면 사람들이 에코와 나눈 대화 주제의 50% 이상은 사랑·외로움·슬픔·농담 등 비실용적인 것이었다는 것이다. 마치 사람처럼 언어로 대화하는 상대방과의 소통에서 사람들이 원하는 것은 비록 상대방이 기계라는 점을 알고 있더라도 음악을 찾아 듣거나 온라인 쇼핑을 하는 등 실용적인 기능에 국한되지 않는다는 것이다. 알렉사의 경쟁 상대인 어시스턴트를 출시한 구글도 자체 연구를 통해 애플리케이션의 페르소나가 강할수록 사용자 유지율이 더 높다는 결론을 얻은 바 있다.


음성 AI의 선도 기업들은 사람들의 호응을 높이기 위해 음성 AI의 페르소나를 목적이나 사용 환경에 맞춰 설정하고 대화 과정에서 고유의 개성이 나타날 수 있도록 다양한 노력을 하고 있다.


음성 AI의 페르소나를 구현하는 작업은 자연어 생성 과정에서 시작된다고 볼 수 있다. 대화하려면 의도나 상황에 적합한 단어를 골라 문장으로 만드는 과정을 거쳐야 하기 때문이다. 자연어 생성 과정은 특정 단어 다음에 올 확률이 높은 단어를 순차적으로 예측하는 통계적 언어 모델에서부터 많은 단어들 중에서 확률적으로 함께 사용될 유사성이 큰 단어들을 골라 문장을 구성하는 트랜스포머(transformer) 모델 등 다양한 기술들이 개발,적용되고 있다.


최근에는 구글의 버트(BERT : Bidirectional Encoder Representations from Transformers)와 비영리 연구 단체 오픈AI가 개발하는 GPT(Generative Pre-Training) 계열의 기술이 특히 각광 받고 있다. 2020년 공개된 GPT-3는 이전 모델들에 비해 10배 이상 많은 1750억 개의 파라미터를 통해 한층 우수해진 문장 구성 능력을 선보이기도 했다.

 

현재 개발되는 AI 기반의 자연어 생성 기술들은 확률적으로 대화에 필요할 가능성이 높은 문자들을 골라 배열하는 방식이므로 그대로 사용하면 큰 난관에 봉착할 수 있다. 2016년 마이크로소프트의 챗봇 테이(Tay)가 일으킨 인종 차별 사건, 2020년 한국 스타트업의 챗봇에 의한 성희롱 논란과 같은 사회적 논란을 일으킬 가능성이 높다. 그래서 일부 기업들은 자연어 생성을 AI에만 의존하지 않는다. 사회적·윤리적 논란의 소지가 큰 단어나 문구가 들어간 대화에 대해서는 차단 필터로 걸러내거나 동문서답하고 때로는 미리 작성해 놓은 이슈 대응용 문장으로 대화하도록 하는 등의 보완 작업도 병행하고 있다.


최근 한국에서 공개된 노인과 아동의 말벗 역할을 할 가정용 로봇에 탑재된 음성 AI도 부정적이거나 위험한 말을 들으면 즉시 대화 주제를 바꾸거나 의료 기관에 알리도록 만들어져 있다고 한다.


대화는 청각을 통해 말의 의미와 함께 감성까지 전달하는 작업이다. 상대의 호응을 끌어내려면 적합한 단어를 골라 문장을 만드는 것만으로는 불충분하다. 대화의 맥락이나 화자가 처한 상황에 맞는 소리(음향)로 바꿀 필요도 있다. 같은 문장이라도 전달하는 음성에 따라 즐거움·공감·피곤함·불안·긴장·자신감·단조로움·귀찮음 등의 감정이 함께 전달되고 때로는 말의 표면적 의미를 긍정하는 대신 부정하는 것마저 가능하기 때문이다. 그래서 음성 AI에서의 발성은 문자를 단순한 소리로 바꾸는 것이 아니라 다채롭게 꾸며진 사람의 육성으로 변화시키는 과정이 된다. 즉, 발성은 말소리의 변화 요소와 함께 남성·여성·어린이·젊은이·노인 등 화자의 성과 연령까지 감안해 만들어진다.


많은 기업들은 기업이나 사업상 이미지에 어울리는 음성을 선택한다. 어떤 기업에는 쾌활한 음성이 어울릴 것이고 어떤 사업에는 상냥한 음성이 어울릴 것이다. 같은 알고리즘 기반의 챗봇 서비스를 이용하는 기업이라면 자사의 챗봇이 경쟁사의 챗봇과 똑같은 육성을 내기를 원하지는 않을 것이다. 2018년 SK텔레콤이 AI 스피커 ‘누구’의 목소리를 발굴하기 위해 선발 대회를 연 것도 같은 목적이라고 볼 수 있다.


페르소나의 근간은 기업의 철학
기업들은 AI가 친근한 대상으로 인식되기를 원하기 마련이다. 동시에 인간과 너무 비슷해 두려움을 부추기는 존재로 각인되는 것은 원하지 않는다. 상충되는 두 목표 사이에서 적절한 균형을 유지하기 위해 기업들은 다양한 노력을 하고 있다. 그 노력은 문자와 음향의 선정 작업에 반영된다. AI가 어떤 페르소나를 가진 주체인지는 AI의 대화, 정확히는 대화를 구성하는 문자와 음향을 통해 드러나기 때문이다. 그래서 기업들은 문자와 음향을 고르는 작업을 단어나 소리에 대한 확률 값을 계산하는 AI에만 의존하지 않는다. 보다 자연스러운 대화 내용으로 다듬거나 사회적 이슈, 기업의 이미지, 사업에 대한 영향력 등을 감안한 필터링을 하는 등 별도의 작업도 병행한다.


아마존과 애플 등 선도 기업들이 음성 AI 개발 과정에 AI 전문가뿐만 아니라 작가·예술가·언어학자 등 말과 관련된 다양한 분야의 전문가까지 동원했던 것도 이 때문이라고 할 수 있다. 이를 감안하면 결국 AI가 가진 페르소나의 뿌리는 기업의 철학이라고 할 수 있다.


수 년 전 소개된 미국 저널리스트의 음성 AI 사용기는 기업들의 철학이 각기 다르다는 점을 잘 보여준다. 인간과 AI 간의 유사성이란 미묘한 주제를 담은 “넌 살아 있니”라는 질문에 대해 음성 AI들은 저마다 다르게 답했던 것이다. “살아 있는 듯해요.”(마이크로소프트의 코타나), “실제로 살아 있는 건 아니지만 가끔 생기를 느껴요.”(아마존의 알렉사), “그게 중요한 이슈인지 모르겠어요.”(애플의 시리), “당신은 세포로 이뤄져 있지만 나는 코드로 만들어져 있어요.”(구글 어시스턴트)
코타나와 알렉사가 일부 공감하는 듯했다면 시리는 미묘한 주제를 회피하는 듯했고 어시스턴트는 확실하게 아니라고 선을 긋는 반응을 보였다고 할 수 있다.

댓글