투명한 기부를 하고싶다면 이 링크로 와보세요! 🥰 (클릭!)
바이낸스(₿) 수수료 평생 20% 할인받는 링크로 가입하기! 🔥 (클릭!)
원본링크
블로그
Paper
https://arxiv.org/abs/1912.02292
resnet 기준으로 쫙 - 매우 - 오래 train 시켰을 때 일시적 test의 성능 하락이 발생하였으나 서서히 다시 test error가 떨어지는 현상을 발견했다고 한다.
데이터가 많을수록 더욱 train 시와의 차이가 적을 것이라고 예측되었으나 모델 사이즈에 대해서 일정 구간에서는 오히려 더 많은 데이터가 성능이 안좋기도 하다고;; (NLP 쪽 transformer 모델 임베딩 task로 실험)
트레이닝 epoch 가 길어짐에 따라서 다시 이득이 생기는 부분이 있다구 한다. 에러가 삭 증가했다가 다시 줄어드는 현상을 볼 수 있다.
이때 width가 클 수록 구간의 간격이 좁아지는 것 같다.
싱기하다 ㄷ ㄷ ㅋㅋㅋㅋㅋㅋ