속도 < 방향
Understanding the difficulty of training deep feedforward neural networks 논문 리뷰 summary 본문
Understanding the difficulty of training deep feedforward neural networks 논문 리뷰 summary
import max 2022. 1. 21. 23:05[업데이트 : 2022-01-26]
논문 : Understanding the difficulty of training deep feedforward neural networks
2010년에 발표된
Understanding the difficulty of training deep feedforward neural Networks
논문의 Summary 겸 리뷰를 적어보려고 합니다.
글을 쓰기에 앞서, 공부를 위해 논문을 보며 요약, 작성한 내용이라 간혹 오역이나 잘못된 내용이 있을 수 있습니다.
핵심 키워드는 highlight를 해두었습니다. 틀린 부분은 댓글로 알려주시면 감사하겠습니다^^
편의상 경어체를 빼고 작성하겠습니다.
Abstract
2006년 이전엔 DNN(Deep Neural Networks)이 훈련에 있어서 큰 성과를 내지 못했지만, 그 이후 성공적인 성과를 보였다. 왜 경사하강법(Gradient Descent)이 심층 신경망에서 제대로 수행되지 않는지에 대해서 찾아보려 한다.
Deep Neural Networks
딥러닝은 하위 레벨의 feature들로 형성된 상위 수준 계층의 기능을 사용하여 기능 계층을 학습하는 것을 목표로 한다. 여기에는 은닉층(hidden layer)이 있는 신경망과 그래픽 모델 등의 다양한 심층 아키텍처에 대한 학습 방법이 포함된다. 그들의 비전과 NLP에서의 경험적 성공 덕분에 최근 많은 연구들이 진행되고 있다. Ben-gio(2009)가 논의해 온 이론에 따르면, 고차원적인 추상화(비전, 언어 등)를 나타내는 복잡한 추상화를 하기 위해서는 깊은 아키텍처가 필요하다.
깊은 아키텍처에 대한 최근 연구의 결과들은 심층 지도 신경망 모델로 얻을 수 있지만, 초기화나 훈련방식은 고전적인 피드포워드(실행 결과가 목표치에서 벗어날 것을 예측하고 미리 필요한 조작을 하는 제어 기능) 방식과 다르다.
새로운 알고리즘은 무작위 초기화나 기울기 기반(gradient-based)의 최적화(optimization)보다 더 잘 작동하는데, 그 이유는 무엇일까? 정답은 바로 비지도학습에 있다. 그것은 로컬의 최소값에 해당하는 최적화 절차 과정에서, "더 나은" 매개변수를 초기화하는 정규화 역할을 한다.
이전 연구에서 순수한 지도학습도 더 나은 결과를 줄 것이란 걸 보여주었다. 그래서 비지도학습이나 준지도학습에서 깊은 아키텍쳐를 가져오는 것보단 기존의 오래된(하지만 깊은) 다층 신경망이 무엇이 잘못되었는지를 분석하는 데 초점을 맞추려고 한다.