글 작성자: 택시 운전사
반응형


손실 줄이기

학습 목표

  • 반복 방식을 사용하여 모델을 학습하는 방법 알기
  • 전체 경사하강법과 다음과 같은 변형된 방식 이해하기
    • 미니 배치 경사하강법
    • 확률적 경사하강법
  • 학습률 시험


  • 반복 방식


방법

임의의 지점에서 시작해서 시스템의 손실 값을 알려줄 때까지 기다림, 다른 값을 추정해서 손실 값을 확인하여 목표 값에 가까워지는 방식, 전체 손실이 변하지 않거나 매우 느리게 변할 때까지 계속 반복하고, 이 때 모델이 수렴했다고 말한다.


목적

최적의 모델을 가능한 가장 효율적으로 찾는 것


  • 경사하강법(Gradient descent)


방법

가중치 w1에 대한 시작점을 선택하여 가중치를 늘리거나 줄여가면서 기울기가 0인 지점을 찾는 알고리즘


학습률

경사하강법 알고리즘에서 다음 지점을 결정하는 값


예) 기울기가 2.5이고 학습률이 0.01이면 경사하강법 알고리즘은 이전 지점으로부터 0.025 떨어진 지점을 다음 지점으로 결정함


학습률이 너무 작은 경우

  • 학습 시간이 매우 오래 걸릴 것이다.


학습률이 너무 큰 경우

  • 다음 지점이 곡선의 최저점을 무질서하게 이탈할 수 있다.


골디락스 학습률

경사하강법에서 최저점에 도달하는 단계 수를 최소화하는 학습률


참고: 실무에서는 모델 학습의 성공을 위해 최적 또는 최적에 근접한 학습률을 반드시 구할 필요는 없다. 경사하강법이 효과적으로 수렴할 정도로 크지만 발산할 정도로 크지 않은 적당한 학습률을 구하는 것이 목표


골디락스 원리(Goldilocks principle)

주어진 견본에는 극단에 속한 독립체가 있을 수 있지만 항상 평균에 속하는 독립체가 있다.

즉, 견본은 항상 U자 모양의 분포가 된다. 이러한 원리의 효과가 관찰되면 이를 골디락스 효과라고 한다.


배치

단일 반복에서 기울기를 계산하는 데 사용하는 예의 총 개수

  • 배치가 너무 커지면 단일 반복으로도 계산하는 데 오랜 시간이 걸릴 수 있음
  • 적당한 중복성은 노이즈가 있는 기울기를 평활화하는 데 유용할 수 있지만, 배치가 거대해지면 예층성이 훨씬 높은 값이 대용량 배치에 비해 덜 포함되는 경향이 있음
  • 데이터 세트에서 예를 무작위로 선택하면 훨씬 적은 데이터 세트로 중요한 평균값을 추정할 수 있음
  • 반복당 하나의 예만을 사용하는 경사하강법을 확률적 경사하강법(SGD)라고 함
미니 배치 확률적 경사하강법 / 미니 배치 SGD

전체 배치 반복과 SGD의 절충안으로 일반적으로 무작위로 선택한 10개에서 1000개 사이의 예로 구성됨, 미니 배치 SGD는 SGD의 노이즈를 줄이면서도 전체 배치보다는 더 효율적이다.


반응형