티스토리 뷰
1. 사용목적
- 머신러닝 평가지표
- Accuracy = correct predictions / total prediction
-> Accuracy는 분류 문제에서 클래스들이 동일한 분포를 가지고 있을 때 유용하다. (마우스 50개, 키보드 50개, 모니터 50개 사진들이 데이터일 경우)
Imbalanced data라면?
Accuracy를 사용하게 되면, class imbalance인 상태의 데이터를 처리할 때 모델의 의미가 많이 떨어지게 된다.
-> 예를 들면, 한 조사에서 100명 중 95명이 "비흡연자"라고 대답했다고 해보자.
-> 해당 모델을 돌렸는데, 학습이 잘못되어 엉망인 예측을 하게 되었다. (그냥 모든 input에 대해 "전부 비흡연자라고 예측한다면")
-> 이 모델을 평가할때 Accuracy를 사용하게 되면, 95%의 확률로 답을 맞춘다고 평가하게 될것이다.
-> 하지만, 이 모델은 아무리 많은 시간이 흘러도 "흡연자"를 맞출 확률은 없기에,
95%의 정확도임에도 불구하고 쓸모없는 모델이 되는 것이다.
이런 경우를 위해서 우리는 다른 평가지표가 필요하다.
2. 학습을 위해 알아둬야할 개념
- precision
-> True Positives / (True Positives + False Positives)
-> 모델의 예측이 True인 것들 중에서 정말로 True였던 것은 몇개였는가?
- recall
-> True Positives / (True Positives + False Negatives)
-> 실제로 True였던 것들 중 모델은 몇개를 True라고 예측하였는가?
3. F1 Score란?
- precision과 recall을 조화평균으로 낸 점수
- imblanced dataset에서 잘 동작하는 평가지표가 된다.
- 조화평균인 이유? (precision과 recall 중에 smaller value affects more)
-> 실제로 위의 예제같은 정확도가 95%지만 실제 분류에는 의미 없는 모델을 F1 score을 내보면 0점이 나온다.
'AI & 머신러닝 > 개념 정리' 카테고리의 다른 글
Atlas based / Patch-based / Label fusion (0) | 2023.02.10 |
---|---|
Graphical Model 이란? (0) | 2023.02.09 |
Decision tree & Minimum-redundancy-maximum-relevance란? (0) | 2023.02.08 |
Regularization이란? (0) | 2023.02.08 |
ROC 커브란? (0) | 2023.02.08 |