글 작성자: 택시 운전사
반응형


일반화(Normalization)


학습목표

  • 과적합(Overfitting)에 대해 알아보기
  • 모델이 적절한지 확인
  • 데이터 세트를 학습 세트와 테스트 세트로 분할

과적합(Overfitting) 모델


학습하는 동안 손실은 적지만 새 데이터에 대한 예측은 잘 하지 못한다. 즉, 필요 이상으로 복잡한 모델을 만들어 과적합이 발생한 것, 머신러닝의 근본적인 과제데이터 적합도를 유지하는 동시에 최대한 단순화하는 것


데이터 세트에서 모델을 만드는 경우, 이전에 보지 못한 데이터를 얻는 방법에는 다음과 같은 것이 있다.


데이터 세트를 두 하위 세트로 나누는 것

  • 학습 세트(Training Set) - 모델을 학습시키기 위한 하위 세트
  • 테스트 세트(Test Set) - 모델을 테스트하기 위한 하위 세트
테스트 세트에서 성능이 좋으면, 일반적으로 다음과 같은 경우 새 데이터에서도 성능이 좋다.
  • 테스트 세트가 충분히 큰 경우
  • 같은 테스트 세트를 반복 사용하지 않는 경우



일반화(Normalization)


가정

  • 분포에서 독립적이고 동일하게(i.i.d.) 임의로 예를 추출한다. 즉, 예가 서로 영향을 미치지 않는다.
  • 분포가 정상성을 보인다. 즉, 데이터 세트 내에서 분포가 달라지지 않는다.
  • 같은 분포를 따르는 부분에서 예를 추출한다.
허나 실제에서는 이러한 가정을 위반하는 경우가 있다.
  • 표시할 광고를 선택하는 모델을 고려한느 경우, 모델이 선택된 광고, 부분적으로 사용자가 이전에 본 광고를 기반으로 하는 경우 i.i.d. 가정을 위반하게 된다.
  • 1년 동안 소매 판매 정보가 포함된 데이터 세트를 고려하는 경우, 사용자의 구매 패턴이 계절에 따라 변경되어 정상성을 위반하게 된다.


반응형