글 작성자: 택시 운전사
반응형


검증  Validation


데이터 세트를 학습 세트와 테스트 세트로 나누면 특정 모델이 새 데이터를 잘 처리할 수 있을 정도로 일반화되었는지 판단할 수 있습니다. 그러나 초매개변수 조정을 여러 차례 실행할 때는 데이터 세트를 둘로 나누는 것만으로는 충분하지 않을 수 있습니다.


학습 목표


분할 방식에서 검증 세트의 중요성을 이해한다.


추가 분할


데이터 세트를 셋으로 나누어서 과적합 가능성 낮추는 방법으로 데이터 세트를 학습 세트(Training Set), 검증 세트(Validation Set), 테스트 세트(Test Set)으로 나눈 뒤, 다음 과정을 시행한다.
  1. 학습 세트로 모델을 학습
  2. 검증 세트로 모델을 평가
  3. 세트 검증의 결과에 따라 모델을 조정

위의 과정에서 가장 우수한 결과를 보이는 모델을 선택하여, 테스트 세트의 결과를 확인



테스트 세트와 검증 세트는 반복 사용에 따라 '마모'된다. 즉, 초매개변수 설정 또는 기타 모델 개선을 결정할 때 같은 데이터를 더 많이 사용할수록 이러한 결과가 새로운 미지의 데이터까지 일반화될 가능성은 낮아진다. 일반적으로 검증세트의 마모 속도는 테스트 세트보다 느리다. 따라서 가능하면 데이터를 더 수집하여 테스트 세트와 검증 세트를 '갱신'하는 것이 좋다. 새로 시작하는 것도 좋은 재설정 방법이다.

반응형