본문 바로가기

Programmer Jinyo/Machine Learning

Imagenet LSVRC2012 Dataset 다운받기


투명한 기부를 하고싶다면 이 링크로 와보세요! 🥰 (클릭!)

바이낸스(₿) 수수료 평생 20% 할인받는 링크로 가입하기! 🔥 (클릭!)





* classification 을 위해 imagenet 데이터를 다운받고 처리하는 과정입니다.

* bounding box 등의 추가적인 데이터를 받고 싶으시다면

http://hpkim0512.blogspot.com/2017/12/sdf.html


위 링크를 참고하세요!


1. 이미지넷 데이터셋 다운받기.


Training set (138G)


wget http://www.image-net.org/challenges/LSVRC/2012/nnoupb/ILSVRC2012_img_train.tar


* 오래 걸리므로 


nohup wget http://www.image-net.org/challenges/LSVRC/2012/nnoupb/ILSVRC2012_img_train.tar &

로 백그라운드에서 다운받는것도 가능.

(몇일 걸리는데, 중간에 그만 받고 싶을 경우 htop 등을 이용하여 프로세스를 중간에 꺼 주어야 함.)



Validation set (6.3GB)


wget http://www.image-net.org/challenges/LSVRC/2012/nnoupb/ILSVRC2012_img_val.tar


2. 압축 풀기


Resnet 링크를 참조하였습니다.


깔끔하게 트레이닝 데이터 압축 풀고 폴더 정리하고 지우기.


*중요

 한번에 한줄씩 실행하세요 ㅠㅠ 잘못하면 꼬임 ㅠㅠㅠㅠ


저 아주 개 망했습니다 다운 두번 받았다고여



mkdir train && mv ILSVRC2012_img_train.tar train/ && cd train
tar -xvf ILSVRC2012_img_train.tar && rm -f ILSVRC2012_img_train.tar
find . -name "*.tar" | while read NAME ; do mkdir -p "${NAME%.tar}"; tar -xvf "${NAME}" -C "${NAME%.tar}"; rm -f "${NAME}"; done
cd ..


깔끔하게 validation 데이터 압출 풀고 폴더 정리하기.


mkdir val && mv ILSVRC2012_img_val.tar val/ && cd val && tar -xvf ILSVRC2012_img_val.tar
wget -qO- https://raw.githubusercontent.com/soumith/imagenetloader.torch/master/valprep.sh | bash


맨 마지막에 validation 압축 파일도 지우려면


rm ILSVR2012_img_val.tar


을 하면 된다.



그러면


train 폴더 안에 카테고리별로,

val 폴더 안에 마찬가지로 카테고리별로 폴더안에 정리되어 들어간다.