[머신러닝] 일반화(Normalization) / 과적합(Overfitting)의 위험
글 작성자: 택시 운전사
반응형
일반화(Normalization)
학습목표
- 과적합(Overfitting)에 대해 알아보기
- 모델이 적절한지 확인
- 데이터 세트를 학습 세트와 테스트 세트로 분할
과적합(Overfitting) 모델
학습하는 동안 손실은 적지만 새 데이터에 대한 예측은 잘 하지 못한다. 즉, 필요 이상으로 복잡한 모델을 만들어 과적합이 발생한 것, 머신러닝의 근본적인 과제는 데이터 적합도를 유지하는 동시에 최대한 단순화하는 것
데이터 세트에서 모델을 만드는 경우, 이전에 보지 못한 데이터를 얻는 방법에는 다음과 같은 것이 있다.
데이터 세트를 두 하위 세트로 나누는 것
- 학습 세트(Training Set) - 모델을 학습시키기 위한 하위 세트
- 테스트 세트(Test Set) - 모델을 테스트하기 위한 하위 세트
테스트 세트에서 성능이 좋으면, 일반적으로 다음과 같은 경우 새 데이터에서도 성능이 좋다.
- 테스트 세트가 충분히 큰 경우
- 같은 테스트 세트를 반복 사용하지 않는 경우
일반화(Normalization)
가정
- 분포에서 독립적이고 동일하게(i.i.d.) 임의로 예를 추출한다. 즉, 예가 서로 영향을 미치지 않는다.
- 분포가 정상성을 보인다. 즉, 데이터 세트 내에서 분포가 달라지지 않는다.
- 같은 분포를 따르는 부분에서 예를 추출한다.
허나 실제에서는 이러한 가정을 위반하는 경우가 있다.
- 표시할 광고를 선택하는 모델을 고려한느 경우, 모델이 선택된 광고, 부분적으로 사용자가 이전에 본 광고를 기반으로 하는 경우 i.i.d. 가정을 위반하게 된다.
- 1년 동안 소매 판매 정보가 포함된 데이터 세트를 고려하는 경우, 사용자의 구매 패턴이 계절에 따라 변경되어 정상성을 위반하게 된다.
반응형
'Machine Learning' 카테고리의 다른 글
[머신러닝] 검증 Validation (0) | 2018.12.24 |
---|---|
[머신러닝] 학습 및 테스트 세트 (0) | 2018.12.24 |
[머신러닝] 손실 줄이기 / 반복 방식, 경사하강법(Gradient descent), 학습률 (0) | 2018.12.24 |
[머신러닝] 머신러닝으로 전환하기 / 선형 회귀(Linear Regression), 학습 및 손실 (0) | 2018.12.24 |
[머신러닝] 머신러닝으로 문제 표현하기 / 머신러닝 용어 정리 (0) | 2018.12.24 |
댓글
이 글 공유하기
다른 글
-
[머신러닝] 검증 Validation
[머신러닝] 검증 Validation
2018.12.24 -
[머신러닝] 학습 및 테스트 세트
[머신러닝] 학습 및 테스트 세트
2018.12.24 -
[머신러닝] 손실 줄이기 / 반복 방식, 경사하강법(Gradient descent), 학습률
[머신러닝] 손실 줄이기 / 반복 방식, 경사하강법(Gradient descent), 학습률
2018.12.24 -
[머신러닝] 머신러닝으로 전환하기 / 선형 회귀(Linear Regression), 학습 및 손실
[머신러닝] 머신러닝으로 전환하기 / 선형 회귀(Linear Regression), 학습 및 손실
2018.12.24