machine_learning

분류 모델

hayleyhell 2023. 2. 12. 10:31

1. 지도 학습과 비지도 학습
머신러닝은 크게 지도학습, 비지도학습으로 구분된다.
지도학습은 정답이 있고, 그 정답을 맞히기 위해 학습하는 것을 말하고,
반대로 비지도 학습은 정답이 없는 문제를 학습하는 것을 말한다.

2. 분류와 회귀
지도 학습은 다시 분류(Classification)와 회귀(Regression)으로 나눌 수 있다.
분류는 주어진 데이터가 어떤 카테고리에 해당하는지 분류해 내는 문제를, 회귀는 주어진 데이터에 따라 특정 필드의 수치를 맞히는 문제를 말한다.

3. 분류 모델

  • Decision Tree
    • Decision Tree는 의사 결정을 할, 즉 데이터를 분리할 결정 경계를 찾아서 데이터를 한 단계씩 분류해나가는 모델이다.
    • 하지만, Decision Tree는 결정경계가 데이터 축에 수직이어서 특정 데이터에만 잘 작동 할 수 있다는 문제가 있다.
    • 이를 극복하기 위해 제안된 모델이 Random Forest이며, 여러 개의 Decision Tree를 합쳐서 만들어놓은 개념이다. 
  • Random Forest 
    • Random Forest는 무엇이 Random인가? Random Forest는 여러 개의 의사 결정 트리를 모아 놓은 것으로, 각각의 의사 결정 트리를 만들기 위해 쓰이는 특성들을 랜덤으로 선택한다. 
    • Random Forest는 Decision Tree 모델을 여러 개 합쳐놓음으로써 Decision Tree의 단점을 극복한 모델이다. 
    • 이러한 기법을 앙상블(Ensemble) 기법이라고 한다. 모델 한 개만 사용 할 때의 단점을 집단지성으로 극복하는 개념이다. 
  • 로지스틱 회귀 Logistic Regression 
    • 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해나가는 모델이다. 
    • 데이터가 2개의 범주 중 하나에 속하도록 결정하는 것을 2진 분류(binary classification)라고 한다. 



4. 분류 모델 평가 지표

  • 정확도(Accuracy) 
    • 전체 데이터 중 모델이 잘 분류한 데이터의 개수의 비율  
    • (TP + TN) / (TP + TN + FP + FN) 
  • 정밀도 (Precision) 
    • 모델이 양성으로 예측(TP + FP)한 것 중 실제 양성(TP)의 비중 
    • TP / (TP + FP
  • 재현율 (Recall) / 민감도(Sensitivity)  
    • 실제 양성(TP+FN) 중 모델이 양성(TP)으로 예측한 데이터의 개수 
    • TP / (TP + FN)
  • F1 Score
    • Recall과 Precision의 조화평균 
    • 2 x (Precision x Recall)/(Precision + Recall )


4-1. Precision과 Recall의 분자는 둘 다 TP이다. TP는 높고 FP 또는 FN이 낮을 수록 좋은 예측이므로, Pecision과 Recall 값이 클수록 좋다.

4-2. Precision이 높아지려면 False Positive, 음성인데 양성으로 판단하는 경우가 적어야 한다. 음성을 놓치지 말아야 한다!
스팸 메일을 거르는 경우 (스팸 메일 positive, 정상 메일 negative), 음성을 양성으로 판단하면 안되기 때문에 Precision이 더 중요하다.

4-3. Recall이 높아지려면 False Negative, 양성인데 음성으로 판단하는 경우가 적어야 한다. 양성을 놓치지 말아야 한다!
암을 진단하는 경우 실제 양성을 음성으로 판단하면 안되기 때문에 Recall이 더 중요하다.