Overfitting
(Underfitting에서 넘어옴)
과적합(Overfitting, high variance)은 머신러닝에서 모델(hypothesis function)이 학습을 위한 데이터(training set)에만 잘 맞게 학습되어 실제에선 너무 복잡하여 잘 맞지 않게 되는 것을 말함.
- Underfitting(or high bias): 모델이 너무 단순하거나 feature가 적어서 데이터의 특징에 대해 부족하게 학습된 상태.
해결방법
- regularization: feature들은 유지 하되 parameter의 값을 조정(작게)하여 overfitting 방지하는 방법
- cost function에 더하는 방식.
- 적용하지 않을 경우에 비해 상대적으로 underfitting 될 수 있다.
좀더 엄밀한 정의
- High bias (underfitting): train set에서의 error와 validation set에서의 error가 둘다 높은 경우.
- High variance (overfitting): validation set에서의 error가 train set에서의 error보다 매우 큰 경우.