행위

Overfitting

과적합(Overfitting, high variance)은 머신러닝에서 모델(hypothesis function)이 학습을 위한 데이터(training set)에만 잘 맞게 학습되어 실제에선 너무 복잡하여 잘 맞지 않게 되는 것을 말함.

  • Underfitting(or high bias): 모델이 너무 단순하거나 feature가 적어서 데이터의 특징에 대해 부족하게 학습된 상태.

해결방법

  • regularization: feature들은 유지 하되 parameter의 값을 조정(작게)하여 overfitting 방지하는 방법
    • cost function에 더하는 방식.
    • 적용하지 않을 경우에 비해 상대적으로 underfitting 될 수 있다.


좀더 엄밀한 정의

  • High bias (underfitting): train set에서의 error와 validation set에서의 error가 둘다 높은 경우.
  • High variance (overfitting): validation set에서의 error가 train set에서의 error보다 매우 큰 경우.