Reinforcement Learning (1) 썸네일형 리스트형 CS 285 강의 노트 Lecture 4 (at UC Berkeley) (also cs294-112) 목차이다. 이전 강의(Lecture 2)에서 배운 내용이다. Policy는 조건부 확률 분포이며 일반적으로 state가 주어지면 action이 리턴된다. 파라미터화 되어있으며 이걸 학습시키는게 RL의 목적이다. Imitation learning 저번 강의때 배운 내용. 어떤 action이 더 나은지 결정하기 위해서 reward function을 도입했었다. state와 action을 주면 reward를 리턴해준다. 어떤 action이 나은지 평가해주는 역할을 하며, greedy하게 결정하면 된다. 마르코프 체인 모델은 state랑 Trainsition operator(state A에서 state B로 가는 확률) 을 가지고 있다. operator인 이유는 Discrete space 에서 T는 행렬이고 확.. 이전 1 다음