본문 바로가기

Programming Project

(52)
CS 285 강의 노트 Lecture 5 (at UC Berkeley) (also cs294-112) Policy gradient 알고리즘은 강화학습을 학습하기 위해서 gradient ascent / descent 를 진행하는 방법에 대한 것이다. 저번주엔 reinforcement learning을 위한 object function을 만드는 방법에 대해 다뤄보았다. partially observed 된 정책함수 $\pi _{\theta}$는 추후 다뤄보자. (지금은 fully observed만 다뤄보자) 이 $\pi _{\theta}$ 에는 state가 input으로 들어가고, action이 output으로 나온다. state는 unknown transition distribution으로부터 나오게 된다. (저 위의 globe 를 transition distribution으로 생각하면 될 것 같다) 이 ..
CS 285 강의 노트 Lecture 4 (at UC Berkeley) (also cs294-112) 목차이다. 이전 강의(Lecture 2)에서 배운 내용이다. Policy는 조건부 확률 분포이며 일반적으로 state가 주어지면 action이 리턴된다. 파라미터화 되어있으며 이걸 학습시키는게 RL의 목적이다. Imitation learning 저번 강의때 배운 내용. 어떤 action이 더 나은지 결정하기 위해서 reward function을 도입했었다. state와 action을 주면 reward를 리턴해준다. 어떤 action이 나은지 평가해주는 역할을 하며, greedy하게 결정하면 된다. 마르코프 체인 모델은 state랑 Trainsition operator(state A에서 state B로 가는 확률) 을 가지고 있다. operator인 이유는 Discrete space 에서 T는 행렬이고 확..
CS 285 강의 노트 Lecture 2 (at UC Berkeley) (also cs294-112) 오늘은 행동에 대한 supervised learning(지도학습) 을 알아 볼 것이다. 오늘 공부할 것. 1. 순차적 의사결정 문제 2. 모방 학습 : 의사결정을 위한 지도학습 a 직접 모방이 잘 동작하는가? b 더 자주 잘 동작하게 만들 수 있는가? 3. 약간의 이론 4. case study 목표 : 정의 이해 , 표기법 이해 기본 모방 알고리즘 이해 이론적인 분석을 위한 tools 이해 우리가 이미지 분별기를 만들고 싶다고 하자. 표기 : 이미지, (o) classes (a) 그리고 이걸 해결하는 모델 (파이(a|o)) 이미지는 observation, label을 action 이라고 말하도록 하자. guessing하는 것을 action으로 생각하기. 파이는 observation이 일어났을 때의 act..
Deep Reinforcement Learning 정리 노트(cs231n 참고) 이 글은 cs231n보면서 같이 보시면 도움이 되실 것이에오! 유튜부 말구 참고한 링크 https://www.slideshare.net/CurtPark1/dqn-reinforcement-learning-from-basics-to-dqn https://www.popit.kr/torch-dqn-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%86%8C%EA%B0%9C/ agent 가 environment와 상호작용하면서 reward를 얻어내는 방식을 구현하려 한다. 목표는 어떻게 하면 reward를 최대화 하는지 공부하는 것이다. 글의 순서는 위와 같다. RL이 뭔지 배우고, Markov Decision Process에 대해 배우고, RL 알고리즘의 두개의 주된 알고리즘인 Q-Lea..
Variational Autoencoder (VAE) 설명 (cs231n 참고) 기존 강의는 pixelCNN의 설명부터 시작한다. VAE는 intractable한 (조절이 까다로운?) latent(잠재) vector z에 대한 density function을 알아내려 한다. 다만 바로 직접적으로 모델을 학습시킬 수는 없고, 대신 likelihood 의 lower bound를 derive and optimize한다고 써있는데 아래에서 더 자세히 알아보도록 하자. 우선 VAE의 배경이 되는 Autoencoder는 data를 만들어내기 위하여 사용하지 않고, label 되어있지 않은 트레이닝 데이터로부터 lower dimensional feature을 unsupervised learning을 통해 배운다. input data x가 있고 이 데이터로부터 feature z를 생성하도록 Enc..
[한글-2-c] CS294-158 Deep Unsupervised Learning Spring 2019 ㅠ 다시한번 말씀드리지만 제 글만 가지고는 이해가 힘드실 수 있으니 강의를 켜놓고 같이 겸사겸사 보시는걸 추천드립니다... 저도 이해가 다 안가요..................................... 잘 아시는분은 댓글로 설명좀 부탁드릴게요....... 이번 부터는 continuous data에 대해서 동작할 flow-based models에 대해 배워 볼 것이다. 여태까지 배운것을 포함해서, 이 강의가 끝나면 어떤 것을 얻어가야 할까? 우리가 likelihood based model을 배울것이라고 하면, 그 중에 어떤 것을 얻어가는 것이 중요할까? 일단 train이 빠르게 잘 되며, sample이 빠르게 잘 되는 것을 원할 것이다. 이걸 compression문제에 가져오면, 우리는 comp..
[한글-2-b] CS294-158 Deep Unsupervised Learning Spring 2019 Unsupervised Learning에 대한 또다른 핫한 분야인 Compression에 대해서 알아보도록 하자. 만약 더 공부를 하고 싶다면 위의 링크에 있는 자료를 더 읽어보도록 하자. 자 그러면 Compression은 무엇이고 우리는 왜 Compression에 대해 집중할 필요가 있을까? 예를 들어 메시지, 이미지, 음악 등을 전송할 때 필요한 bit의 수를 줄일 수 있다. 그리고 그 종류는 크게 Lossy 와 lossless compression으로 나뉜다. lossy는 어느정도의 정보 손실을 허용하는 전송이고 (예를 들자면 이미지의 화질구지라던지..) lossless는 에러를 허용하지 않는 전송을 말한다. 우선 우리는 lossless compression에 집중해보고자 한다. 위의 목록과 같은 ..
[한글-2-a] CS294-158 Deep Unsupervised Learning Spring 2019 * 티스토리 에디터가 바뀌었는데, 훨씬 깔끔하고 보기 좋네요! * 다만, 이전 글들과 비교해서 포멧이 조금씩 다를 것 같아요! 이번 강의는 위와 같은 3 파트로 이루어져 있다. 우선 지난 시간에 했던 강의내용에 이어서 Autoregressive models에 대해 다루어 보겠다. 지난 시간에 공부했던 PixelCNN에 대해서 기억하는가? 이 모델은 이미지에서 잘 동작하도록 설계된 모델이다. autoregressive model은 우선 variables의 순서를 질의(query)로 선택하고, (위의 경우에는 image안의 pixel들이 될 것이다) 그 이전 variables를 통해서 새로운 한개의 variable을 예측한다. 즉 P( x | 이전 x들 ) 과 같은 형태를 예측한다고 보면 우리에게 익숙한 모..