강화학습이 엄청 재밌네요

대강 비슷해요. 세상에 대한 모델, 혹은 그 모델에 대한 규칙을 인공지능에게 제공해주고 그 안에서 가장 최적의 보상을 획득할 수 있는 전략을 인공지능이 학습해내도록 하는 것입니다. 수학적으로 보자면, MDP(Markov Decision Process)라는 걸 벨만이란 사람이 좀 더 다듬어서 만들어낸 벨만방정식(Bellman's Equation)의 해를 서서히 학습하며 구해나가는 과정입니다.

즉, 한마디로 정리하자면, 주어진 세계에서 가장 많은 보상을 얻을 수 있는 전략을 배워내는 기계학습입니다.

엄청 재밌는 분야에요. 왜냐면 인공지능은 단순히 지금 주어지는 보상 뿐만 아니라 미래에 주어질 보상까지도 예측하며 결정을 내려야하거든요. 지금 하는 행동에 대한 결과가 한참 뒤에 나올 수도 있고. 이걸 지연 된 보상(Delayed Reward)라 부르는데, 이 문제를 해결해나가는게 강화학습의 핵심입니다.

찬성: 0 | 반대: 0

Comment ' 3

작성자

Lv.59 오늘도요

작성일

16.02.22 15:42

No. 1

강화학습은 인공지능에게 과제를 주며 성장시키는 건가요? 뭔가 신기해보이네요!

찬성: 0 | 반대: 0
답글

작성자

Lv.96 강림주의

작성일

16.02.22 18:47

No. 2

대강 비슷해요. 세상에 대한 모델, 혹은 그 모델에 대한 규칙을 인공지능에게 제공해주고 그 안에서 가장 최적의 보상을 획득할 수 있는 전략을 인공지능이 학습해내도록 하는 것입니다. 수학적으로 보자면, MDP(Markov Decision Process)라는 걸 벨만이란 사람이 좀 더 다듬어서 만들어낸 벨만방정식(Bellman's Equation)의 해를 서서히 학습하며 구해나가는 과정입니다.

즉, 한마디로 정리하자면, 주어진 세계에서 가장 많은 보상을 얻을 수 있는 전략을 배워내는 기계학습입니다.

엄청 재밌는 분야에요. 왜냐면 인공지능은 단순히 지금 주어지는 보상 뿐만 아니라 미래에 주어질 보상까지도 예측하며 결정을 내려야하거든요. 지금 하는 행동에 대한 결과가 한참 뒤에 나올 수도 있고. 이걸 지연 된 보상(Delayed Reward)라 부르는데, 이 문제를 해결해나가는게 강화학습의 핵심입니다.

찬성: 0 | 반대: 0
답글

작성자

Lv.59 오늘도요

작성일

16.02.23 01:17

No. 3

흥미진진하네요_*

찬성: 0 | 반대: 0

이전 다음

강호정담

Comment ' 3

신고 사유를 선택하세요.
장난 또는 허위 신고시 불이익을 받을 수 있으며,
작품 신고의 경우 저작권자에게 익명으로 신고 내용이
전달될 수 있습니다.

강호정담

강화학습이 엄청 재밌네요

Comment ' 3

신고 사유를 선택하세요. 장난 또는 허위 신고시 불이익을 받을 수 있으며,작품 신고의 경우 저작권자에게 익명으로 신고 내용이전달될 수 있습니다.

신고 사유를 선택하세요.
장난 또는 허위 신고시 불이익을 받을 수 있으며,
작품 신고의 경우 저작권자에게 익명으로 신고 내용이
전달될 수 있습니다.