‘스스로 판단할 수 있는 기계’가 실제로 가능할까. 인간이 다른 생명체와 차별화되는 가장 큰 특성은 바로 자유 의지다. 인간에게는 스스로 결정을 내릴 수 있는 힘이 있다. 어떤 상황이 닥쳤을 때 우리는 스스로 해석하고 어떻게 반응할지 스스로 선택한다.
현재까지 우리가 실제 경험하는 인공지능(AI)의 대부분은 인간의 감각 기능에 대한 모사다. 예를 들어 딥러닝 기반의 애플리케이션은 고양이와 개를 구분할 줄 알고 구글홈은 사람의 말을 이해하며 아이폰은 사람의 얼굴을 인식할 수 있다.
그렇다면 AI는 인간의 지능과 이성 영역을 완벽히 모사할 수 있을까. 즉 기계도 인간처럼 스스로 판단하고 결정하는 자유 의지를 가질 수 있을까.
‘매트릭스’처럼, ‘자유 의지’ 가진 로봇?
생각해 보면 우리가 막연하게 상상하는 AI 혹은 로봇은 스스로 생각하고 선택하는 존재에 가깝다. 그도 그럴 것이 지금까지 수많은 SF 영화에서 경험한 AI는 스스로 판단하고 선택한다. ‘매트릭스’에서 AI는 인간의 명령을 듣지 않고 인류와의 전쟁을 선택했고 더 나아가 인간을 자신들의 에너지원으로 만들기로 결정한다. ‘터미네이터’에서 스카이넷도 인류와의 전쟁을 선택했고 과거로 AI 로봇을 보내 인류 저항군의 리더 존 코너를 암살하기로 결정했다. 우리가 상상하는 AI는 주어진 환경에서 그들에게 최선의 결과를 가져오는, 때로는 인간의 의지와 상반되는 결정을 스스로 내린다.
이처럼 스스로 생각하고 판단하는 기계의 존재는 인간에게 막연한 위협이 되기도 하고 엄청난 기대를 불러일으키기도 한다. 물론 대부분의 전문가들은 앞서 말한 두 영화와 같은 상황이 벌어지기는 쉽지 않을 것이라고 예상하지만 관련 연구는 매우 활발히 진행 중이고 진화 중이다.
이런 맥락에서 AI, 즉 머신러닝의 세 가지 학문 분야를 살펴볼 필요가 있다.
지도 학습(supervised learning)
비지도 학습(unsupervised learning)
강화 학습(reinforcement learning)
지도 학습은 쉽게 말해 정답이 있는 문제를 푸는 기계 학습이다. 예를 들어 대량의 고양이와 강아지 사진을 주고 각각 고양이와 강아지를 분류해 이를 학습시킨 후 새로운 사진 속의 동물이 고양이인지, 강아지인지 분류하게 하는 학습 방법이 바로 지도 학습이다. 기존 데이터들의 특징을 토대로 내일의 주가를 예측하는 것도 지도 학습을 통해 가능하다.
비지도 학습은 정답이 없는 문제를 푸는 기계 학습이다. 고양이나 강아지를 구분해 주지 않고 수많은 데이터에서 스스로 패턴이나 형태를 찾아내도록 하는 학습 방법이다. 예를 들어 비슷한 사람끼리 묶어 주는 군집화(clustering) 모델 혹은 웹툰 스케치에 색상을 칠해 주는 이미지 채색화(image colorization) 등의 모델이 비지도 학습이다. 특정 이미지 속의 얼굴을 연예인의 얼굴로 바꿔 주는 딥페이크도 일종의 비지도 학습에 속한다.
마지막으로 강화 학습은 지도나 비지도 학습과는 조금 다른 개념이다. 분류할 수 있는 데이터나 정답이 따로 정해져 있지 않고 스스로 자신의 행동에 대해 ‘보상’을 받으며 학습하는 방법이다. 가장 큰 역할은 ‘의사 결정의 최적화’다. 다시 말해 ‘주어진 상황에서 의사 결정을 최적화해 주는 기계 학습’이다. 대표적인 예시로 우리에게 너무도 친숙한 딥마인드의 알파고가 있다. 알파고는 바둑의 룰을 학습한 기계가 아니다. 이기는 ‘보상’ 값을 달성하기 위해 각 수마다 승률이 가장 높을 것으로 계산된 수를 둘 뿐이다. 이처럼 강화 학습은 주어진 상황에서 목적을 달성하기 위한 최선의 선택을 하도록 모델을 학습시킨다.
실제 강화 학습은 인간의 도파민 시스템에서 착안해 만들어졌다. 인간은 지속적으로 다양한 행동을 하며 환경에 적응하는 법을 익힌다. 어떤 행동을 취하면 환경은 그에 상응하는 결과를 준다. 뜨거운 불을 만지면 아프다는 사실을 알게 되고 맛있는 케이크를 먹으면 행복하다는 사실을 깨닫게 된다. 도파민 시스템은 사람이 뜨거운 물건을 만지는 등 위험한 행동을 하면 벌을 주고 맛있는 음식을 먹는 등 생존에 유리한 행동을 하면 보상을 준다. 이러한 경험들을 통해 인간은 자신의 두뇌 속에 의사 결정 프로세스를 정립하게 된다.
이와 유사하게 강화 학습 기반의 알고리즘은 주어진 환경에서 달성해야 하는 목표와 각 과정에 대한 보상 값이 정해지면 스스로 보상을 최대로 받으며 목표를 달성하는 방법을 학습해 스스로 최종 목적을 달성해 나가는 것이다.
목표를 달성하기 위해 의사 결정을 최적화해 주는 AI 기술은 실생활에서는 주로 ‘추천 시스템’의 형태로 적용된다. 우리가 유튜브 영상을 볼 때 AI는 유저의 선호도에 최적화된 콘텐츠를 추천해 준다. 작은 범위의 의사 결정이긴 하지만 이는 사용자의 만족도를 높여줄 뿐만 아니라 유튜브의 광고 수익 구조를 획기적으로 개선해 준다.
또 다른 애플리케이션은 다이내믹 프라이싱이다. 카카오T의 대리운전은 고객의 상황에 따라 다른 비용을 청구할 수 있다. 경쟁사의 가격을 참고하고 현재 수요와 공급을 고려해 어떤 가격을 제시하는지에 따라 대리운전 사업의 매출이 최적화된다.
마지막으로, 필자가 속한 뤼이드의 ‘AI 토익 튜터 산타’의 문제 추천 시스템도 강화 학습 문제로 정의할 수 있다. 뤼이드 알고리즘은 학생의 현재 상태를 정확히 인식하는 지식 추적(knowledge tracing) 기술을 활용해 현재 지식 수준을 추정하고 목표 점수를 달성하기 위해 최적화된 문제와 강의 콘텐츠를 추천한다.
범용 인공지능, ‘의사결정’할 수 있어야
필자는 진정한 범용 AI로 가는 길목에 강화 학습이 있다고 믿는다. 인간은 지금까지 사람이나 사물을 알아보는 능력으로 지구를 지배하게 된 것은 아니다. 사물을 인식하는 능력은 대부분의 동물들에게도 존재하는 비교적 보편적인 능력이다. 인간이 뛰어난 능력을 갖게 된 것은 바로 ‘높은 수준의 의사 결정 능력’이라고 생각한다. 생각해 보자, 우리가 살고 있는 세상에서 상당한 부가 가치는 현명한 의사 결정에서 나온다. 현명하게 투자한 사람은 상당한 금전적인 보상을 얻게 되며 뛰어난 사업가는 시대의 흐름을 읽고 적절한 사업 아이템을 선택한다.
필자는 향후 AI 기술의 발전과 활용에 강화 학습이 그 무엇보다 중요하다고 믿는다. AI의 역사와 발전에서 훌륭하고 잘 알려진 학자들이 많지만 그중에서도 필자가 가장 존경하는 인물은 강화 학습의 아버지라고 불리는 리처드 서튼 캐나다 앨버타대 교수다. 만약 여러분이 AI를, 그중에서도 ‘AI의 꽃’이라고 불리는 강화 학습에 대해 더 자세히 알고 싶다면 서튼 교수의 ‘단단한 강화학습(원제 Introduction to Reinforcement Learning)’을 읽어 보기를 추천한다.
“저는 어떤 의미에서 강화 학습이 AI의 미래라고 믿습니다. 강화 학습은 지능형 시스템이 지속적인 감독 없이 스스로 학습할 수 있어야 한다는 아이디어를 가장 잘 보여줍니다. AI는 스스로 선택한 결정이 옳은지, 그른지를 스스로 말할 수 있어야 합니다. 그래야만 엄청난 양의 지식과 일반 기술로 확장할 수 있습니다.”리처드 서튼