우리 모두 웃어봐요! 우리들의 이야기로.
대강 비슷해요. 세상에 대한 모델, 혹은 그 모델에 대한 규칙을 인공지능에게 제공해주고 그 안에서 가장 최적의 보상을 획득할 수 있는 전략을 인공지능이 학습해내도록 하는 것입니다. 수학적으로 보자면, MDP(Markov Decision Process)라는 걸 벨만이란 사람이 좀 더 다듬어서 만들어낸 벨만방정식(Bellman's Equation)의 해를 서서히 학습하며 구해나가는 과정입니다.
즉, 한마디로 정리하자면, 주어진 세계에서 가장 많은 보상을 얻을 수 있는 전략을 배워내는 기계학습입니다.
엄청 재밌는 분야에요. 왜냐면 인공지능은 단순히 지금 주어지는 보상 뿐만 아니라 미래에 주어질 보상까지도 예측하며 결정을 내려야하거든요. 지금 하는 행동에 대한 결과가 한참 뒤에 나올 수도 있고. 이걸 지연 된 보상(Delayed Reward)라 부르는데, 이 문제를 해결해나가는게 강화학습의 핵심입니다.
Comment ' 3