머신러닝_성능평가

분류모델 평가 : 범주를 정확히 예측한 비율로 모델 성능 평가

회귀모델 평가 : 예측값과 실제값의 차이 (오차)로 모델 성능 평가

회귀모델 성능 평가

오차 # 작을수록 좋음

오차 제곱의 합 이용

1. (SSE) Sum Squared Error #실제값과 평균값의 오차제곱합

2. (MSE) Mean Sum Squared Error #오차제곱합의 평균

3. (RMSE) Root Mean Sum Squared Error #오차제곱합의 평균에 루트

오차 절대값의 합 이용

1. (MAE) Mean Absolute Error >> 이 값은 제곱한 값이 아니므로 고객에게 말해도 이해가능

2. (MAPE) Mean Absolute Percentage Error

결정계수 #MSE의 표준화된 버전, 전체 오차중 잡아낸 오차의 비율(보통 0~1사이)

R-squared =설명력 (평균보다 우리 모델이 얼마나 잘했는가?) #클수록 좋음

R-squared = SSR / SST = 1 - ( SSE / SST )

#SSR = 평균값과 모델예측값의 오차제곱합 : 모델이 잡아낸 오차

#SST = 실제값과 모델예측값의 오차제곱합 : 전체오차(평균보다는 성능이 좋아야하므로)

#SSE = 실제값과 평균값의 오차제곱합 : 모델이 잡아내지 못한 오차

분류모델 성능평가

Confusion Matrix:오분류표

Accuracy (정확도, 정분류율) #전체 중에서 정확히 예측한 비율

Precision (정밀도) #예측Positive 중에서 실제Positive의 비율

Recall (재현율, 민감도) #실제Positive 중에서 예측Positive의 비율

Spectificity (특이도) #실제Negative 중에서 예측Negative의 비율

F1-Score : 정밀도와 재현율의 조화평균

#정밀도와 재현율이 적절히 요구될 때 쓰인다.

Ex)

# 모듈 불러오기

from sklearn.metrics import f1_score

# 성능 평가

print(f1_score(y_test, y_pred, average=None))

#옵션 average=None을 설정하면 Negative, Positive 둘 다의 성능평가결과를 보여줌

#설정하지 않았을 때의 기본값 = Positive에 대한 성능평가결과를 보여줌

그래프를 그릴때 추가로 지정할 수 있는 옵션들

color = 'tab:orange' # 태블로의 색을 사용하기

hue = 값 #해당 값으로 색 구분을 하는 역할

Ablog