Neuroscience Study
모델 기반 강화 학습 vs. 모델 프리 강화 학습 본문
앞에서 소개한 강화 학습 모델은 이 세상이 어떻게 작동하는지에 대한 지식이 전혀 없다. 단순히 가능한 모든 행동을 시도하고 평균적으로 어떤 행동이 최상의 결과를 내는지를 학습하는 모델이다. 연구진은 이를 다소 혼란스러운 표현이지만 '모델 프리' 강화 학습이라고 부른다. 학습자에게 세상이 작동하는 방식에 대한 모델이 주어지지 않았기 때문이다. 슬롯머신과 같은 단순한 상황에서는 문제될 것이 없다. 하지만 실제 세상에서는 부적합한 모델이다.
내가 샌프란시스코에 있는 우리 집에서 스탠퍼드 캠퍼스까지 운전을 해서 이동한다고 가정해보자. 남쪽으로 약 65킬로미터를 달려 팔로알토에 가야 한다. 이 경로에는 스무 개가 넘는 교차로와 스무 개가 넘는 고속도로 출구가 있다. 지도가 없다면 캠퍼스까지 가기 위해 교차로와 고속도로 출구마다 각각의 선택지를 모두 시도해봐야겠지만, 이것이 부질없는 짓임은 분명하다. 가능성이 너무 많기 때문이다. 컴퓨터 과학자들은 이 문제를 차원의 저주라고 하는데, 가능한 선택지의 수가 많아질수록 이 선택지들의 조합의 수가 훨씬 빠른 속도로 증가한다는 개념이다. 교차로 한 곳에서 가능한 선택지는 세 개다. 유턴을 할 수 없다느 전제하에 직진을 하거나 좌회전 또는 우회전을 하는 것이다. 교차로가 두 개일 경우 가능한 선택지의 조합은 총 아홉 개이고, 이런 식으로 숫자가 기하급수적으로 커져 스무 개의 교차로에는 30억 개 이상의 조합을(3의 20승에 해당하는 수) 시도해야 출발부터 도착까지의 경로를 결정할 수 있다! 이런 연유로, 이 세상의 가능한 모든 상태에서 가능한 모든 행동을 시도하는 것은 금세 불가능한 일이 되고 만다. 모델 프리 학습자는 세상의 변화에도 잘 대처하지 못한다. 내가 기적적으로 지도 없이도 스탠퍼드 캠퍼스에 도착할 수 있었다고 가정해보자. 나는 이 경로를 기억해두었고 이 길로만 다니게 되었다. 그러던 어느 날 내가 찾아낸 고속도로 출구가 공사로 폐쇄되는 일이 벌어졌다. 지도가 없는 나는 목적지까지 어떻게 가야 할지 알 수 없고, 무작정 다른 선택지들을 모두 시도해야 할 상황에 처했다. 모델 프리 학습자의 생각이 무척이나 한심하게 들리겠지만 이는 목표나 다른 지식에 아랑곳하지 않고 주어진 상황에서 학습된 반응만을 수행한다는 점에서 습관이 어떻게 작용하는지를 훌륭하게 설명해주고 있다. 강화 학습 시스템의 또 다른 종류인 '모델 기반' 강화 학습은 체계화된 지식을 활용해 세상의 이치를 이해하고 이에 따라 결정을 내린다. 우리가 세상의 '모델'에 대해 말할 때 지도 개념을 사용할 때가 많다. 도로 지도처럼 물리적 공간의 지도가 될 수도 있지만, 세상에 대한 우리의 지식을 전반적으로 보여주는 다른 종류의 '인지 지도'일 수도 있다. 예를 들자면 현재 위치에서 비행기를 타기 위해 공항까지 이동해야 한다고 생각해보자. 물리적인 지도가 공항까지 도착하기 위해 택할 수 있는 다양한 길을 보여주듯, 인지 지도 또한 공항까지 갈 수 있는 다양한 방법(지하철, 택시, 승차 공유 등)을 보여주고 각 방법을 수행하기 위해 해야 하는 각기 다른 행동을 알려준다. 가령, 택시를 타면 하차할 때 기사에게 요금을 지불해야 하고 승차 공유 어플을 이용할 경우에는 등록된 카드로 요금이 결제되기 때문에 기사에게 돈을 낼 필요가 없다는 것을 인지 지도가 알려준다. 인지 지도는 맥락에도 민감하다. 이를테면 승차 공유 어플을 쓸 수 없는 도시가 있고, 미국에서는 택시 기사에게 팁을 주어야 하지만 이탈리아에서는 그렇지 않은 것처럼 말이다. 인지 지도는 또한 우리의 행동이 세상을 어떻게 바꾸는지 보여주기도 한다. 이를테면 승차 공유 운전자가 공항까지 운전을 너무 느리게 해서 언짢지만 운전자에게 불평을 한다면 승개 평점에 부정적인 영향을 끼칠 수 있고, 그로 인한 불이익을 받을 수 있기에 짜증 내고 싶은 마음을 참으며 인내심을 발휘한다.
모델 기반 강화 학습자는 이런 식의 인지 지도를 이용해 목표를 달성하는 데 최상의 행동을 결정한다. 이런 측면에서 보면 효율적인 행동을 위해선 모델 기반 강화 학습을 사용해야 한다는 사실이 분명해 보인다. 한편, 모델 프리 시스템은 특정 행동이 가장 좋다는 것을 배운 뒤 이를 계속 반복하는 습관을 잘 설명해준다. 프린스턴 대학의 신경 과학자인 너새니얼 도우는 이 두 가지 학습이 인간의 두뇌에서 어떻게 함께 작용하는지를 이해하는 데 커리어를 바쳤다. 컴퓨터 과학자로 교육받은 도우는 이후 전설적인 컴퓨터 신경 과학자인 유니버시티 칼리지 런던의 피터 다얀과 몇 년간 함께 연구했다. 컴퓨터과학과 신경과학의 개념에 착안한 도우는 각 시스템이 두뇌에서 어떻게 기능하고 또 어떻게 연관되어 있는지를 이해하기 위해 뇌영상법과 컴퓨터 모델링을 결합한 방식을 활용했다.
![](https://blog.kakaocdn.net/dn/YUWLY/btrQZzLYXBi/v9WGymMlTTKVcDkImmx3dk/img.jpg)
모델 기반과 모델 프리 강화 학습이 인간의 두뇌에서 어떻게 작용하는지에 대한 문제를 연구하기 위해 도우는 이 두 시스템을 모두 시험할 수 있는 실험 과제를 개발해야 했다. 그가 고안한 '2단계 과제'는 인간과 설치류의 의사결정 연구에 광범위하게 사용되고 있는데 두 개의 후속 결정이 필요한 과제라 이러한 이름을 붙였다. 보통 컴퓨터 화면으로 색이 칠해진 도형을 보며 행하는 과제이지만, 여기서는 좀 더 친숙한 용어로 설명할 생각이다(과제를 묘사한 그림을 참고하라).
당신이 낯선 건물에 입장해 보물찾기를 한다고 생각해보길 바란다. 가장 먼저 두 개의 초인종 중 무엇을 누를지 하나를 선택해야 한다. 동그라미 버튼과 세모 버튼이라고 하자. 이 두 개의 버튼은 정해진 확률에 따라 두 개의 문 중 하나를 열 수 있다. 예를 들면 동그라미 버튼은 70퍼센트의 확률로 동그라미 방과 30퍼센트의 확률로 세모 방의 문을 여는 반면, 세모 버튼은 이 반대로 작용한다. 어떤 문을 열어 방에 입장한 후에는 또 다른 선택에 마주해야 한다. 각 방마다 두 개의 문('문 A'와 '문 B'로 부르겠다)이 있고, 문 뒤에는 또 한 번 어떠한 확률로 보상이 놓여 있다. 가령, 동그라미 방의 문 A에는 80퍼센트의 확률로, 문 B에는 20퍼센트의 확률로 보상이 있고, 세모 방에는 이 반대의 확률로 보상이 준비되어 있다.
먼저 모델 기반 학습자가 이 과제에 어떻게 접근할지 생각해보자. 여기서 '모델'은 상태 전이 확률(즉, 각 버튼을 눌러 각 문이 열릴 가능성)과 각각의 최종 상태에서 각각의 행동이 보상을 얻을 확률(즉, 각 방에서 어떤 문이 최상의 선택인지)을 설명한다. 학습자는 우선 첫 단계에서 어떤 버튼을 몇 번 눌렀을 때 각각의 방문이 열리는지 학습한다. 두 번째 단계에서는 각 문이 보상으로 이어지는 빈도 또한 학습한다. 이 지식을 바탕으로 첫 번째 단계에서 가장 가치가 높은 행동과 연계된 두 번째 단계로 갈 수 있는 선택을 내리고, 두 번째 단계에서는가장 가치가 높은 행동을 선택한다. 반면, 모델 프리 학습자는 이 과제에 대한 정신적 모델이 없기 때문에 어떠한 일련의 행동이 보상으로 이어질지를 학습한다. 도우는 첫 번째 단계에서 빈도가 낮은 전이가 벌어지고 선택 행동이 보상을 받을 때 즉, 세모 버튼이 동그라미 방의 문으 열고 문 A에 보상이 있는 상황을 관찰하는 것으로 모델 기반과 모델 프리 학습을 구분할 수 있다고 생각했다. 모델 기반 학습자는 보상을 받은 것은 곧 두 번째 단계(동그라미 방) 상태의 가치가 더욱 높다는(이 상태에서 보상을 받았기 때문에) 의미라고 깨달을 것이다. 하지만 첫 번째 단계에서의 선택이(세모 버튼) 가치가 높은 상태로 이끌 확률이 상대적으로 낮다는 것 또한 깨달으며 다음번에는 세모 버튼을 선택하지 않으려 할 것이다. 다시 말해, 이 세계에서 특정 상태가 보상에 어떻게 연관되는지를 학습한다. 반면, 모델 프리 학습자는 어떠한 행동이 보상으로 이어졌는지를 단순히 기록하기에 다음에도 세모 버튼을 선택할 가능성이 높다.
도우와 그의 동료들 그리고 다른 연구자들이 진행한 다수의 연구에서 인간과 쥐는 2단계 과제에서 대체로 모델 기반 학습에 참여하지만, 모델 기반 통제의 정도는 개개인에 따라 달라진다는 것이 드러났다. 일련의 연구에서는 모델 기반 통제와 모델 프리 통제의 정도가 개인에 따라 차이가 난다는 사실을 보여주었다. 그러나 이 차이는 모델 기반 통제에서 안정적인 개인차를 반드시 반영한다기 보다는 상황 변인이 작용했다고 볼 근거가 있다(과제를 완수할 당시 개인이 스트레스나 피로를 느낀 정도 등). 나와 내 동료들은 150명을 대상으로 한 2단계 과제를 몇 달 간격을 두고 두 차례 시험했고 이 결과를 논문으로 출판했다. 우리는 어떤 참가자든 두 시점 간에 모델 기반 통제 정도의 관계성이 매우 약하다는 사실을 발견했고, 이는 곧 모델 기반 통제를 행하는 정도에 안정적인 개인차가 없을 수도 있다는 점을 시사했다.
또한 특정 상황 변인이 모델 기반 대 모델 프리 강화 학습의 전개에 영향을 미친다는 증거가 있다. 특히, 주의력을 방해하는 요소가 사람들에게 모델 프리 통제를 활용하도록 이끄는 것으로 보인다. 현재 맥길 대학의 교수인 로스 오토가 캐린 포드와 바버라 놀튼 그리고 내가 참여했던 초기 연구에서 영감을 받아 진행한 한 연구에서 이 사실을 입증했다. 우리가 진행한 연구에서 참가자들은 앞서 등장했던 날씨 예측 과제를 집중력을 발휘할 수 있는 상태에서 그리고 집중력이 분산된 상태(특정 소리가 몇 번 들렸는지 머릿속으로 세야하는)에서 각각 행했다. 집중을 방해하는 요소가 날씨를 정확하게 예측하는 참가자의 능력을 저하시키지는 않았지만, 경험에 관한 의식적인 기억을 현저히 감소시켰다는 것을 발견했다. 오토와 그의 동료들은 피실험자들에게 2단계 의사결정 과제를 제시했고, 피실험자들은 해당 과제를 집중 환경 또는 이중 과제 환경에서 수행했다. 오토는 피실험자들이 집중한 상태에서는 모델 기반 학습자처럼 행동한 반면, 집중력이 분산될 때는 모델 프리 학습을 활용할 확률이 높다는 것을 발견했다. 멀티태스킹에 전전두피질이 연관되어 있음을 보여주는 탄탄한 연구 자료가 있고, 오토의 연구 결과는 전전두피질이 모델 기반 의사결정에 필요하다는 사실과 일치하는 바, 멀티태스킹이 모델 기반 시스템의 효과성을 저하시키고 모델 프리 시스템이 경쟁에서 이기도록 만드는 것으로 볼 수 있다.
러셀 폴드랙. (2022). 습관의 알고리즘 (신솔잎, 역). 서울: 비즈니스북스.
'Neuroscience Book > Neuroscience' 카테고리의 다른 글
아이들의 자제력이 떨어지는 생물학적인 이유 (0) | 2022.11.13 |
---|---|
사고로 성격이 달라진 사람들 (0) | 2022.11.13 |
목표와 습관의 차이를 형식화하다 (0) | 2022.11.12 |
뇌에 습관이 '스며드는' 과정 (0) | 2022.11.04 |
오래된 습관은 죽지 않는다. (0) | 2022.11.04 |