Loading [MathJax]/jax/output/CommonHTML/jax.js

본문 바로가기

전체보기

(121)

머신러닝 하면서 데이터 갖고놀기 연습하기 좋은 링크 https://dandyrilla.github.io/2017-08-12/pandas-10min/#ch12 Pandas 기본 사용법 익히기 Pandas 의 기본 사용법을 소개해 놓은 ‘10 Minutes to pandas’ 문서를 따라서 실습해 보고 한글로 번역해 놓은 글입니다. dandyrilla.github.io http://pythonstudy.xyz/python/article/407-Matplotlib-%EC%B0%A8%ED%8A%B8-%ED%94%8C%EB%A1%AF-%EA%B7%B8%EB%A6%AC%EA%B8%B0 예제로 배우는 파이썬 프로그래밍 - Matplotlib 차트/플롯 그리기 1. Matplotlib 개요 Matplotlib는 파이썬에서 데이타를 차트나 플롯(Plot)으로 그려주는 라..

파이토치 Dataloader 또 다른 예시들. https://wingnim.tistory.com/33?category=772392 이전 튜토리얼 강의의 Data loader 코드를 보고 오셨다고 생각하고 진행하겠습니다. (어떤 프로젝트의 예시들이다) 이미지 데이터들 폴더에서 불러오는 방법. import glob import random import os import numpy as np import torch from torch.utils.data import Dataset from PIL import Image import torchvision.transforms as transforms from skimage.transform import resize import sys class ImageFolder(Dataset): def __init__(s..

CS 285 강의 노트 Lecture 6 (at UC Berkeley) (also cs294-112) 오늘 강의는 policy gradient를 critic과 함께 향상시키는 법을 배울 것이다. (lower variance?) 머 등등 배운다 배우다 보면 알겠지 지난 시간에 reinforce algorithm 에 대해 배움. 빨간박스에서 샘플 만들구 초록 박스에 대해서는 리워드를 정의했었고 결론적으로 Q function을 도입했었다. Q hat은 Q function을 예측하는 함수이다. (저기 x랑 u를 인풋으로 받는거는 s랑 a 인풋 받는거랑 같은 말이다. 다른 표현. ㅋㅋㅋㅋ 첨보고 뭐지 싶었는데 lecture 2에서 배웠던 내용) 이 Q hat function을 reward to go 라고 한다. 이번 수업에서는 더 나은 방법으로 reward to go를 예측하는 방법에 대해 배운다. 이걸 샘플링하..

CS 285 강의 노트 Lecture 5 (at UC Berkeley) (also cs294-112) Policy gradient 알고리즘은 강화학습을 학습하기 위해서 gradient ascent / descent 를 진행하는 방법에 대한 것이다. 저번주엔 reinforcement learning을 위한 object function을 만드는 방법에 대해 다뤄보았다. partially observed 된 정책함수

$\pi _{\theta}$ 는 추후 다뤄보자. (지금은 fully observed만 다뤄보자) 이

$\pi _{\theta}$ 에는 state가 input으로 들어가고, action이 output으로 나온다. state는 unknown transition distribution으로부터 나오게 된다. (저 위의 globe 를 transition distribution으로 생각하면 될 것 같다) 이 ..

CS 285 강의 노트 Lecture 4 (at UC Berkeley) (also cs294-112) 목차이다. 이전 강의(Lecture 2)에서 배운 내용이다. Policy는 조건부 확률 분포이며 일반적으로 state가 주어지면 action이 리턴된다. 파라미터화 되어있으며 이걸 학습시키는게 RL의 목적이다. Imitation learning 저번 강의때 배운 내용. 어떤 action이 더 나은지 결정하기 위해서 reward function을 도입했었다. state와 action을 주면 reward를 리턴해준다. 어떤 action이 나은지 평가해주는 역할을 하며, greedy하게 결정하면 된다. 마르코프 체인 모델은 state랑 Trainsition operator(state A에서 state B로 가는 확률) 을 가지고 있다. operator인 이유는 Discrete space 에서 T는 행렬이고 확..

CS 285 강의 노트 Lecture 2 (at UC Berkeley) (also cs294-112) 오늘은 행동에 대한 supervised learning(지도학습) 을 알아 볼 것이다. 오늘 공부할 것. 1. 순차적 의사결정 문제 2. 모방 학습 : 의사결정을 위한 지도학습 a 직접 모방이 잘 동작하는가? b 더 자주 잘 동작하게 만들 수 있는가? 3. 약간의 이론 4. case study 목표 : 정의 이해 , 표기법 이해 기본 모방 알고리즘 이해 이론적인 분석을 위한 tools 이해 우리가 이미지 분별기를 만들고 싶다고 하자. 표기 : 이미지, (o) classes (a) 그리고 이걸 해결하는 모델 (파이(a|o)) 이미지는 observation, label을 action 이라고 말하도록 하자. guessing하는 것을 action으로 생각하기. 파이는 observation이 일어났을 때의 act..

Deep Reinforcement Learning 정리 노트(cs231n 참고) 이 글은 cs231n보면서 같이 보시면 도움이 되실 것이에오! 유튜부 말구 참고한 링크 https://www.slideshare.net/CurtPark1/dqn-reinforcement-learning-from-basics-to-dqn https://www.popit.kr/torch-dqn-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-%EC%86%8C%EA%B0%9C/ agent 가 environment와 상호작용하면서 reward를 얻어내는 방식을 구현하려 한다. 목표는 어떻게 하면 reward를 최대화 하는지 공부하는 것이다. 글의 순서는 위와 같다. RL이 뭔지 배우고, Markov Decision Process에 대해 배우고, RL 알고리즘의 두개의 주된 알고리즘인 Q-Lea..

Play 프레임워크 공부 노트 * 개인적인 공부를 위해 노트한 글입니다 * 이 글 속에서 필요한 정보를 찾으셔서 잘 활용하실 수 있다면 마음껏 읽어주세요 :) Play 2.7 넘어서부터인지 모르겠지만 sbt 설치하고 콘솔창으로 sbt run 으로 실행하면 된다. (그 전에는 activator run 명령어로 실행했던것 같다. 블로그 글들 찾아보는데 다 그렇게 나오네..) 기본 구조 conf/routes 기본적인 라우팅 정보가 들어가 있다. 만약에 get 방식에서 파라미터를 넘겨주려면 명시해야 한다. ex)GET /hello controllers.HomeController.hello(naaaame: String) // naaaame이라는 파라미터 전송할 것. controllers/~~~~~Controller.scala MVC 패턴의 컨..

목록 더보기

티스토리툴바