문돌이 존버/데이터 분석
2022. 1. 1.
핸즈온 머신러닝 2 복습하기(챕터 11: 심층 신경망 훈련하기)
11.1 그레이디언트 소실과 폭주 문제 역전파 알고리즘은 출력층에서 입력층으로 오차 그레이디언트를 전파하면서 진행된다. 알고리즘이 신경망의 모든 파라미터에 대한 오차 함수의 그레이디언트를 계산하면 경사 하강법 단계에서 이 그레이디언트를 사용하여 각 파라미터를 수정한다. 하지만 알고리즘은 하위층으로 진행될수록 그레이디언트가 점점 작아지는 경우가 많다. 경사 하강법이 하위층의 연결 가중치를 변경하지 않은 채로 둔다면 훈련이 좋은 솔루션으로 수렴되지 않으며, 이 문제를 그레이디언트 소실(vanishing gradient)이라고 한다. 2010년 세이비어 글로럿(Xavier Glorot)과 요슈아 벤지오(Yoshua Bengio)가 발표한 논문으로 인해 심층 신경망을 훈련할 때 그레이디언트를 불안정하게 하는 원..