머신러닝
[머신러닝] 검증 Validation
[머신러닝] 검증 Validation
2018.12.24검증 Validation 데이터 세트를 학습 세트와 테스트 세트로 나누면 특정 모델이 새 데이터를 잘 처리할 수 있을 정도로 일반화되었는지 판단할 수 있습니다. 그러나 초매개변수 조정을 여러 차례 실행할 때는 데이터 세트를 둘로 나누는 것만으로는 충분하지 않을 수 있습니다. 학습 목표 분할 방식에서 검증 세트의 중요성을 이해한다. 추가 분할 데이터 세트를 셋으로 나누어서 과적합 가능성 낮추는 방법으로 데이터 세트를 학습 세트(Training Set), 검증 세트(Validation Set), 테스트 세트(Test Set)으로 나눈 뒤, 다음 과정을 시행한다.학습 세트로 모델을 학습검증 세트로 모델을 평가세트 검증의 결과에 따라 모델을 조정위의 과정에서 가장 우수한 결과를 보이는 모델을 선택하여, 테스트 ..
[머신러닝] 학습 및 테스트 세트
[머신러닝] 학습 및 테스트 세트
2018.12.24학습(Training) 및 테스트 세트(Test Set) 학습 목표데이터 세트를 학습 세트와 테스트 세트로 구분하는 데 따르는 장점을 이해하기학습 세트(Training Set) 모델을 학습시키기 위한 데이터 세트의 일부분 테스트 세트(Test Set)모델을 테스트하기 위한 데이터 세트의 일부분새 데이터를 모의 실험하는 역할 평가 세트의 두 가지 조건통계적으로 유의미한 결과를 도출할 만큼 커야 한다.데이터 세트를 전체적으로 나타내야 한다. 즉, 테스트 세트가 학습 세트와 같은 특징을 가지도록 선별해야 한다. 절대로 해선 안되는 것 테스트 데이터로 학습하기모델이 새 데이터로 얼마나 효과적으로 일반화되는지 정확히 측정할 수 없게 된다.
[머신러닝] 일반화(Normalization) / 과적합(Overfitting)의 위험
[머신러닝] 일반화(Normalization) / 과적합(Overfitting)의 위험
2018.12.24일반화(Normalization) 학습목표과적합(Overfitting)에 대해 알아보기모델이 적절한지 확인데이터 세트를 학습 세트와 테스트 세트로 분할 과적합(Overfitting) 모델 학습하는 동안 손실은 적지만 새 데이터에 대한 예측은 잘 하지 못한다. 즉, 필요 이상으로 복잡한 모델을 만들어 과적합이 발생한 것, 머신러닝의 근본적인 과제는 데이터 적합도를 유지하는 동시에 최대한 단순화하는 것 데이터 세트에서 모델을 만드는 경우, 이전에 보지 못한 데이터를 얻는 방법에는 다음과 같은 것이 있다. 데이터 세트를 두 하위 세트로 나누는 것학습 세트(Training Set) - 모델을 학습시키기 위한 하위 세트테스트 세트(Test Set) - 모델을 테스트하기 위한 하위 세트테스트 세트에서 성능이 좋으면..
[머신러닝] 손실 줄이기 / 반복 방식, 경사하강법(Gradient descent), 학습률
[머신러닝] 손실 줄이기 / 반복 방식, 경사하강법(Gradient descent), 학습률
2018.12.24손실 줄이기학습 목표반복 방식을 사용하여 모델을 학습하는 방법 알기전체 경사하강법과 다음과 같은 변형된 방식 이해하기미니 배치 경사하강법확률적 경사하강법학습률 시험 반복 방식 방법임의의 지점에서 시작해서 시스템의 손실 값을 알려줄 때까지 기다림, 다른 값을 추정해서 손실 값을 확인하여 목표 값에 가까워지는 방식, 전체 손실이 변하지 않거나 매우 느리게 변할 때까지 계속 반복하고, 이 때 모델이 수렴했다고 말한다. 목적최적의 모델을 가능한 가장 효율적으로 찾는 것 경사하강법(Gradient descent) 방법가중치 w1에 대한 시작점을 선택하여 가중치를 늘리거나 줄여가면서 기울기가 0인 지점을 찾는 알고리즘 학습률경사하강법 알고리즘에서 다음 지점을 결정하는 값 예) 기울기가 2.5이고 학습률이 0.01이..
[머신러닝] 머신러닝으로 전환하기 / 선형 회귀(Linear Regression), 학습 및 손실
[머신러닝] 머신러닝으로 전환하기 / 선형 회귀(Linear Regression), 학습 및 손실
2018.12.24머신러닝으로 전환하기 학습 목적선형 회귀에 관한 지식을 상기머신러닝에서의 가중치와 편향이 선형 회귀에서의 기울기 및 오프셋과 어떤 관계를 갖는 지 설명'손실'의 일반적인 개념과 그 중 특별히 제곱 손실에 대해 설명 선형 회귀(Linear Regression)점 집합에 가장 잘 맞는 직선 또는 초평면을 찾기 위한 가장 간단한 데이터 학습 방법 손실 함수주어진 예의 L2 손실은 제곱 오차라고도 합니다.= 예측과 라벨 간의 차이 제곱= (관찰 - 예측)2= (y - y')2 선형 관계에서의 데이터에 대한 근사치고 하나의 직선을 그린다면 일반적으로 이렇게 표현됩니다.y′=b+w1x1여기서y는 섭씨온도, 즉 예측하려는 값입니다.m은 선의 기울기입니다.x는 1분당 우는 횟수, 즉 입력 특성 값입니다.b는 y절편입니..
[머신러닝] 머신러닝으로 문제 표현하기 / 머신러닝 용어 정리
[머신러닝] 머신러닝으로 문제 표현하기 / 머신러닝 용어 정리
2018.12.24머신러닝 용어 정리 학습목표기본적인 머신러닝 용어 알아보기다양한 머신러닝 용도 알아보기 지도 머신러닝 / Supervise Machine Learning 입력을 결합하여 모델을 만들고, 이전에 보지 못한 데이터에 대해서도 적절히 예측하는 방법 라벨 / Label 예측하는 실제 항목 (y) 기본 선형 회귀의 y 변수 예) 스팸메일 여부, 밀의 향후 가격, 사진에 표시되는 동물의 종류, 오디오 클립의 의미 등 특성 / Feature 데이터를 설명하는 입력 변수 (xi) 기본 선형 회귀의 { x1, x2, ... xn } 변수 예) 이메일에 포함된 단어, 보내는 사람의 주소 이메일이 전송된 시간, '이상한 속임수 하나'라는 구문이 포함된 이메일 예 / Example 데이터 (x)의 특정 인스턴스 라벨이 있는 ..
[머신러닝] 머신러닝 소개
[머신러닝] 머신러닝 소개
2018.12.24[머신러닝] 머신러닝(Machine Learning,ML) 소개 학습목표 머신러닝의 실용적 가치 이해 머신러닝의 원리 이해 머신러닝을 배워야 하는 3가지 이유 1. 프로그래밍 시간을 줄일 수 있다. ( Reduce time programming ) > 짧은 시간에 더 안정적인 프로그램을 만들 수 있게 된다. 2. 더 잘 맞는 프로그램을 제공할 수 있다. ( Customize and scale products ) > 여러가지 국가의 언어를 다뤄야 하는 경우 비슷한 언어의 경우 학습을 통해 해당 국가에 맞게 제공할 수 있따. 3. 프로그래머로서 수동으로 할 방법이 없어 보이는 문제를 해결할 수 있다. ( Complete seemingly "unprogrammable" tasks ) > 일반적인 프로그래밍으로..