Processing math: 100%

본문 바로가기

Programming Project/cs285 (cs294-112)

(4)

CS 285 강의 노트 Lecture 6 (at UC Berkeley) (also cs294-112) 오늘 강의는 policy gradient를 critic과 함께 향상시키는 법을 배울 것이다. (lower variance?) 머 등등 배운다 배우다 보면 알겠지 지난 시간에 reinforce algorithm 에 대해 배움. 빨간박스에서 샘플 만들구 초록 박스에 대해서는 리워드를 정의했었고 결론적으로 Q function을 도입했었다. Q hat은 Q function을 예측하는 함수이다. (저기 x랑 u를 인풋으로 받는거는 s랑 a 인풋 받는거랑 같은 말이다. 다른 표현. ㅋㅋㅋㅋ 첨보고 뭐지 싶었는데 lecture 2에서 배웠던 내용) 이 Q hat function을 reward to go 라고 한다. 이번 수업에서는 더 나은 방법으로 reward to go를 예측하는 방법에 대해 배운다. 이걸 샘플링하..

CS 285 강의 노트 Lecture 5 (at UC Berkeley) (also cs294-112) Policy gradient 알고리즘은 강화학습을 학습하기 위해서 gradient ascent / descent 를 진행하는 방법에 대한 것이다. 저번주엔 reinforcement learning을 위한 object function을 만드는 방법에 대해 다뤄보았다. partially observed 된 정책함수

$\pi _{\theta}$ 는 추후 다뤄보자. (지금은 fully observed만 다뤄보자) 이

$\pi _{\theta}$ 에는 state가 input으로 들어가고, action이 output으로 나온다. state는 unknown transition distribution으로부터 나오게 된다. (저 위의 globe 를 transition distribution으로 생각하면 될 것 같다) 이 ..

CS 285 강의 노트 Lecture 4 (at UC Berkeley) (also cs294-112) 목차이다. 이전 강의(Lecture 2)에서 배운 내용이다. Policy는 조건부 확률 분포이며 일반적으로 state가 주어지면 action이 리턴된다. 파라미터화 되어있으며 이걸 학습시키는게 RL의 목적이다. Imitation learning 저번 강의때 배운 내용. 어떤 action이 더 나은지 결정하기 위해서 reward function을 도입했었다. state와 action을 주면 reward를 리턴해준다. 어떤 action이 나은지 평가해주는 역할을 하며, greedy하게 결정하면 된다. 마르코프 체인 모델은 state랑 Trainsition operator(state A에서 state B로 가는 확률) 을 가지고 있다. operator인 이유는 Discrete space 에서 T는 행렬이고 확..

CS 285 강의 노트 Lecture 2 (at UC Berkeley) (also cs294-112) 오늘은 행동에 대한 supervised learning(지도학습) 을 알아 볼 것이다. 오늘 공부할 것. 1. 순차적 의사결정 문제 2. 모방 학습 : 의사결정을 위한 지도학습 a 직접 모방이 잘 동작하는가? b 더 자주 잘 동작하게 만들 수 있는가? 3. 약간의 이론 4. case study 목표 : 정의 이해 , 표기법 이해 기본 모방 알고리즘 이해 이론적인 분석을 위한 tools 이해 우리가 이미지 분별기를 만들고 싶다고 하자. 표기 : 이미지, (o) classes (a) 그리고 이걸 해결하는 모델 (파이(a|o)) 이미지는 observation, label을 action 이라고 말하도록 하자. guessing하는 것을 action으로 생각하기. 파이는 observation이 일어났을 때의 act..

티스토리툴바