본문 바로가기

Programmer Jinyo/Machine Learning

Deep double descent 라는 paper 재밌다


투명한 기부를 하고싶다면 이 링크로 와보세요! 🥰 (클릭!)

바이낸스(₿) 수수료 평생 20% 할인받는 링크로 가입하기! 🔥 (클릭!)

원본링크

블로그

https://openai.com/blog/deep-double-descent/?fbclid=IwAR37q9qWw_XOcWZHJzmLXDRkqK07uevYc0dGGyjwMq0HVlsmyh2TTylZ-vw

Paper

https://arxiv.org/abs/1912.02292

 

 

 

 

 

resnet 기준으로 쫙 - 매우 - 오래 train 시켰을 때 일시적 test의 성능 하락이 발생하였으나 서서히 다시 test error가 떨어지는 현상을 발견했다고 한다.

 

 

 

데이터가 많을수록 더욱 train 시와의 차이가 적을 것이라고 예측되었으나 모델 사이즈에 대해서 일정 구간에서는 오히려 더 많은 데이터가 성능이 안좋기도 하다고;; (NLP 쪽 transformer 모델 임베딩 task로 실험)

 

 

트레이닝 epoch 가 길어짐에 따라서 다시 이득이 생기는 부분이 있다구 한다. 에러가 삭 증가했다가 다시 줄어드는 현상을 볼 수 있다.

이때 width가 클 수록 구간의 간격이 좁아지는 것 같다.

 

싱기하다 ㄷ ㄷ ㅋㅋㅋㅋㅋㅋ