Neuroscience Study

목표와 습관의 차이를 형식화하다 본문

Neuroscience Book/Neuroscience

목표와 습관의 차이를 형식화하다

siliconvalleystudent 2022. 11. 12. 17:55


샌프란시스코에서는 서너 명의 엔지니어가 차 위에 센서를 단 소형차를 운전하며 누비는 모습은 매우 흔한 광경이다. 괴짜 파티 차량같이 보이지만 사실 실리콘밸리의 수많은 기업에서 개발 중인 자율주행 차량의 시제품이다. 제대로 된 자율주행 차량을 만드는 데는 인간 지능의 다양한 면을 컴퓨터로 신속하고도 효율적으로 구현해야 하기에 난관이 무척 많다.

1950년대부터 시작된 인공지능을 향한 탐구는 수십 년간 의학적 진단이나 체스 등 까다로운 업무에서 인간처럼 추론하는 시스템을 개발하는 데 주로 초점이 맞춰져 있었다. 이러한 접근법은 인간 차원의 문제를 단호하고도 유연하게 해결하려는 데 발걸음조차 떼지 못하고 암흑기를 맞았다. 하지만 21세기에 들어서 인공지능을 향한 다른 접근법이 인간 수준의 지능에 도달하기 위해서 해결해야 하는 문제를 훨씬 능숙하게 처리하며 그 역량을 증명해 보였다. 머신러닝이라고 부르는 이 기법은 인간의 학습 방식과 좀 더 가깝게 학습하기 위해 엄청난 양의 데이터와 아주 강력한 성능읭 컴퓨터를 활용한다. 특히 딥러닝이라 부르는 접근법은 오랜 세월 동안 컴퓨터 공학자들이 골머리를 썩인 문제 다수를 해결하는 데 굉장히 성공적인 모습을 보였다. 페이스북에서 업로드된 사진 속 사람들의 얼굴을 식별하고 각각의 이름을 찾아내는 데 쓰이는 기술이 딥러닝이다. 당연하게도 딥러닝의 대부 중 한 명인 얀 르쿤이 현재 페이스북에서 일하고 있다.

머신러닝 연구자들은 인간이 됐든 컴퓨터 시스템이 됐든 세상을 배워가며 해결해야 하는 문제를 보통 몇 가지로 분류한다. 한쪽 끝에는 지도 학습이라는 문제들이 있는데, 여기서는 시스템에 정답이 제시되고 시스템은 적절한 맥락에 맞춰 정답을 되풀이하는 법만 학습하면 된다. 어린아이가 부모에게서 다양한 동물의 이름을 배우는 과정과 유사하다. 다른 쪽 끝에 속한 문제들은 비지도 학습으로, 교사 역할을 하는 대상이 전혀 없는 상태에서 세상을 보고, 관찰한 바에 따라 그 구조를 식별해야 한다. 어린아이가 부모가 하는 말을 듣고, 부모가 쓰는 특정 언어에서 중요한 언어음(음성기관에서 조음되어 의미를 지니는 음성 형식 - 옮긴이)을 파악할 떄 비지도 학습이 벌어진다. 이 두 유형의 학습 사이에는 강화 학습이 있는데, 이는 앞서 도파민을 이야기하며 등장했다. 강화학습에서 시스템은 피드백을 바탕으로 적절한 행동을 배워야 하지만 정답이 명쾌하게 주어지지 않는다. 올바른 선택을 내렸는가에 따라 당근 또는 채찍을 받는다.

컴퓨터 공학이 하나의 학문 분야로 존재하기도 전에 학습이 어떻게 일어나는지에 관심을 가졌던 몇몇 심리학자들이 강화 학습을 연구했었다. 물리학과 달리 심리학에는 법칙이 거의 없지만, 가장 확실하게 정립된 이론 중 하나는 1898년 미국의 심리학자 에드워드 손다이크가 만든 '효과의 법칙'이다. 어떤 행동의 결과가 만족스러우면 해당 결과를 이끄는 특정 상황이 형성될 떄 향후 이 행동이 더욱 자주 일어나는 반면, 행동의 결과가 불만족스럽다면 향후 이 행동을 할 가능성이 낮아진다는 이론이다. 20세기 심리학자들은 쥐 또는 비둘기와 같은 동물의 학습에 초점을 맞춰 효과의 법칙 원리를 이해하기 위해 연구했지만, 이 이론의 기본 개념 중 하나를 밝힌 이들은 '고전적 조건화'라는 또 다른 유형의 학습을 연구하던 연구자들이었다.

고전적 조건화는 파블로프가 먹이를 주기 전 울리는 종소리에 개들이 침을 흘리는 모습을 보고 발견한 학습 유형이라 파블로프 학습이라고도 불린다. 1970년년대 심리학자인 로버트 레스콜라와 앨런 바그너는 특히 학습에서 일어나는 차단 현상을 이해하는 데 관심을 가졌다. 기존의 이론들은 동물이 어떠한 일과 다른 일 사이에 동시 발생을 인식하는 것으로 학습한다는 쪽이었다. 즉, 언제든 어떠한 행동에 관련하여 보상이 따른다면 동물은 해당 행동을 더욱 자주 수행하도록 학습한다는 것이다. 그러나 1968년 심리학자 리언 카민이 보상이 이미 어떠한 자극과 연계된 경우라면 새로운 자극과 보상 간의 연결성이 차단될 수 있다는 사실을 보여주었다. 가령, 초등학교에서 특정 벨소리를 들으면 점심 시간을 연상하게 되고, 벨이 울릴 때마다 침이 고이기 시작할 수도 있다. 그러나 또 다른 자극이 이후 추가된다면, 가령 벨과 함께 번쩍이는 불빛이 제시된다면 두 번째 자극과 결과 간의 관계는 차단되어 추후 불빛만 제시될 때는 벨소리와 같은 반응을 유발하지 못한다. 이를 통해 두뇌는 이 세상에서 어떤 자극들이 동시에 벌어지는지를 단순히 기록하는 데 그치지 않는다는 것이 드러났다. 레스콜라와 바그너는 학습이 세상에 대한 학습자의 '예측이 엇나가는 정도'에 따라 달라진다는 개념을 바탕으로 즉, 우리가 도파민에서 봤던 보상 예측 오류와 완벽히 같은 개념을 바탕으로 학습의 수학 이론을 만들었다. 이 이론은 이제 여러 새로운 접근법으로 대부분 대체되었지만, 심리학에서는 이 이론 덕분에 오류에 의한 학습 개념이 확고해졌다.

러셀 폴드랙. (2022). 습관의 알고리즘 (신솔잎, 역). 서울: 비즈니스북스.