티스토리 뷰

반응형

1. 사용목적

- 머신러닝 평가지표

- Accuracy = correct predictions / total prediction

-> Accuracy는 분류 문제에서 클래스들이 동일한 분포를 가지고 있을 때 유용하다. (마우스 50개, 키보드 50개, 모니터 50개 사진들이 데이터일 경우)

 

Imbalanced data라면?

Accuracy를 사용하게 되면, class imbalance인 상태의 데이터를 처리할 때 모델의 의미가 많이 떨어지게 된다.

-> 예를 들면, 한 조사에서 100명 중 95명이 "비흡연자"라고 대답했다고 해보자.

-> 해당 모델을 돌렸는데, 학습이 잘못되어 엉망인 예측을 하게 되었다. (그냥 모든 input에 대해 "전부 비흡연자라고 예측한다면")

-> 이 모델을 평가할때 Accuracy를 사용하게 되면, 95%의 확률로 답을 맞춘다고 평가하게 될것이다.

-> 하지만, 이 모델은 아무리 많은 시간이 흘러도 "흡연자"를 맞출 확률은 없기에, 

 

95%의 정확도임에도 불구하고 쓸모없는 모델이 되는 것이다.
이런 경우를 위해서 우리는 다른 평가지표가 필요하다.


 

2. 학습을 위해 알아둬야할 개념

 

- precision

-> True Positives / (True Positives + False Positives)

-> 모델의 예측이 True인 것들 중에서 정말로 True였던 것은 몇개였는가?

 

- recall

-> True Positives / (True Positives + False Negatives)

-> 실제로 True였던 것들 중 모델은 몇개를 True라고 예측하였는가?

 


 

3. F1 Score란?

 

- precision과 recall을 조화평균으로 낸 점수

 

- imblanced dataset에서 잘 동작하는 평가지표가 된다.

- 조화평균인 이유? (precision과 recall 중에 smaller value affects more)

 

-> 실제로 위의 예제같은 정확도가 95%지만 실제 분류에는 의미 없는 모델을 F1 score을 내보면 0점이 나온다.

반응형

'AI & 머신러닝 > 개념 정리' 카테고리의 다른 글

Atlas based / Patch-based / Label fusion  (0) 2023.02.10
Graphical Model 이란?  (0) 2023.02.09
Decision tree & Minimum-redundancy-maximum-relevance란?  (0) 2023.02.08
Regularization이란?  (0) 2023.02.08
ROC 커브란?  (0) 2023.02.08
댓글
공지사항
최근에 올라온 글