What is this?
machine learning์์ ๋ชจ๋ธ์ด๋ ํจํด์ ๋ถ๋ฅ ์ฑ๋ฅ ํ๊ฐ์์ ์ฌ์ฉ๋๋ ์งํ์ด๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ๋ถ๋ฅ ์ฑ๋ฅ์ ๋ ์์ธํ๊ฒ ํ์ ์ด ๊ฐ๋ฅํ๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ฅผ ์ด์ฉํ์ฌ ๋ชจ๋ธ์ ๊ฐ์ ๋ฐฉํฅ์ฑ์ ์ก์๊ฐ ์ ์๊ฒ ๋๋ค.
Table of Contents
1. Precision, Recall, and Accuracy
1-1. Precision$($์ ๋ฐ๋$)$
1-2. Recall$($์ฌํ์จ$)$
1-3. Accuracy$($์ ํ๋$)$
1-4. F1-score
2. ๊ทธ ์ธ์ ์งํ๋ค
2-1. ROC curve
2-2. AUC
๋ณธ๋ฌธ์ผ๋ก ๋ค์ด๊ฐ๊ธฐ ์ ์, confusion matrix์ ๋ํด ์์๋ณด๊ฒ ๋ค. confusion matrix๋ ํ๋ จ์ ํตํ prediction์ ์ฑ๋ฅ์ ์ธก์ ํ๊ธฐ ์ํด ์์ธก๊ฐ์ ์ค์ ๊ฐ์ ๋น๊ตํ๊ธฐ ์ํ ํ์ด๋ค. ๋ค์์ ๊ทธ๋ฆผ 1์ด confusion matrix๋ฅผ ํํํ ๊ฒ์ด๋ค.
์ฌ๊ธฐ์, T๋ True, F๋ False, P๋ Positive, N์ Negative๋ฅผ ์๋ฏธํ๋ค. ์ฆ, TP์ TN์ ์ค์ ๊ฐ์ ๋ง๊ฒ ์์ธกํ ๊ฒ์ด๋ฉฐ, FP์ FN์ ์ค์ ๊ฐ๊ณผ ๋ค๋ฅด๊ฒ ์์ธกํ ๊ฒ์ด๋ค.
1. Precision, Recall, and Accuracy
Precision, Recall, Accuracy๋ ์ค๋ก ๋ง์ด ์ฌ์ฉ๋๋ ์งํ๋ค๋ก, ๊ฐ๊ฐ์ ์ ๋ฐ๋, ์ฌํ์จ, ์ ํ๋๋ฅผ ๋ปํ๋ค.
1-1. Precision$($์ ๋ฐ๋$)$
Precision$($์ ๋ฐ๋$)$๋ ๋ชจ๋ธ์ด True๋ผ๊ณ ๋ถ๋ฅํ ๊ฒ ์ค, ์ค์ ๋ก๋ True์ธ ๊ฒ์ ๋น์จ์ ๋งํ๋ค. ์ฆ, ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ํํ์ด ๊ฐ๋ฅํ๋ค.
$(Precision) = \frac{TP}{TP + FP}$
์ด๋ฌํ ํน์ฑ ๋๋ฌธ์, Positive ์ ๋ต๋ฅ $($PPV$)$ ๋ผ๊ณ ๋ ๋ถ๋ฆฐ๋ค. ์ด๋ฅผ confusion matrix๋ก ํํํด๋ณด๋ฉด ๋ค์์ ๊ทธ๋ฆผ 2์ ๊ฐ๋ค.
1-2. Recall$($์ฌํ์จ$)$
Recall$($์ฌํ์จ$)$์ด๋, ์ค์ True์ธ ๊ฒ ์ค์์ ๋ชจ๋ธ์ด True๋ผ๊ณ ์์ธกํ ๊ฒ์ ๋น์จ์ด๋ค. ์ด๋ฅผ ์์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
$(Recall) = \frac{TP}{TP + FN}$
์ด๋ฅผ confusion matrix๋ก ํํํ๋ฉด ๋ค์์ ๊ทธ๋ฆผ 3๊ณผ ๊ฐ๋ค.
์ฌํ์จ$($Recall$)$์ ์ ๋ฐ๋$($Precision$)$๊ณผ TP์ ๊ฒฝ์ฐ๋ฅผ ๋ค๋ฅธ ๊ด์ ์์ ๋ฐ๋ผ๋ณด๋ ๊ฒ์ด๋ค. ์ฆ, Precision์ด๋ Recall์ ๋ชจ๋ ์ค์ True์ธ ์ ๋ต์ ๋ชจ๋ธ์ด True๋ผ๊ณ ์์ธกํ ๊ฒฝ์ฐ์ ๊ด์ฌ์ด ์์ผ๋, ๋ฐ๋ผ๋ณด๊ณ ์ ํ๋ ๊ด์ ๋ง ๋ค๋ฅด๋ค. Precision์ ๋ชจ๋ธ์ ์ ์ฅ์์, ๊ทธ๋ฆฌ๊ณ Recall์ ์ค์ ์ ๋ต์ ์ ์ฅ์์ ์ ๋ต์ ์ ๋ต์ด๋ผ๊ณ ๋ง์ถ ๊ฒฝ์ฐ๋ฅผ ๋ฐ๋ผ๋ณด๊ณ ์๋ค. ๋ฐ๋ผ์, Precision๊ณผ Recall์ ์ํธ๋ณด์์ ์ผ๋ก ์ฌ์ฉํ ์ ์์ผ๋ฉฐ, ๋ ์งํ๊ฐ ๋ชจ๋ ๋์์๋ก ์ข์ ๋ชจ๋ธ์ด๋ค.
1-3. Accuracy$($์ ํ๋$)$
Accuracy$($์ ํ๋$)$๋ True๋ฅผ True๋ก ์ฌ๋ฐ๋ฅด๊ฒ ์์ธกํ ๊ฒ๊ณผ False๋ฅผ False๋ก ์ฌ๋ฐ๋ฅด๊ฒ ์์ธกํ ๊ฒ์ ๊ณ์ฐํ ์งํ์ด๋ค. ์์์ผ๋ก๋ ๋ค์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
$(Accuracy) = \frac{TP + TN}{TP+FN+FN+TN}$
์ด๋ฅผ confusion matrix๋ก ํํํ๋ฉด ๋ค์์ ๊ทธ๋ฆผ 4์ ๊ณผ ๊ฐ๋ค.
์ ํ๋๋ ๊ฐ์ฅ ์ง๊ด์ ์ผ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ํ๋ผ ์ ์๋ ํ๊ฐ ์งํ์ด๋ค. ํ์ง๋ง, ์ฌ๊ธฐ์๋ ์น๋ช ์ ์ธ ์ค๋ฅ๊ฐ ์กด์ฌํ ์ ์๋๋ฐ, ๋ฐ๋ก domain์ ํธํฅ์ด๋ค. ์๋ฅผ ๋ค์ด์, ์ด๋ค ๋ณ์ ๋ํด์ ํ๋ฌ ๋์์ ์ง๋จ์ ๋ฐ์ผ๋ฌ ์จ ์ฌ๋์ ์ฑ๋ณ์ ์์ธกํ๋ค๊ณ ๊ฐ์ ํด๋ณด์. ํ์ง๋ง, ์ด ๋ณ์ ํน์ฑ์ ์ฌ์ฑ์๊ฒ ๋ ๋ง์ด ๋ํ๋๋ ๋ณ์ผ ๊ฒฝ์ฐ์๋, ํด๋น ๋ฐ์ดํฐ์ domain์ด ๋ถ๊ท ํํ๊ฒ ๋๋ฏ๋ก, ์ฌ์ฑ์ ์์ธกํ๋ ์ฑ๋ฅ์ ๋์ง๋ง, ๋จ์ฑ์ ์์ธกํ๋ ์ฑ๋ฅ์ ๋งค์ฐ ๋ฎ์ ์๋ฐ์ ์๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ ๋ณด์ํ ์งํ์ ํ์์ฑ์ด ๋๋๋๊ธฐ ์์ํ๋ค.
1-4. F1-score
F1-score๋ Precision๊ณผ Recall์ ์กฐํ ํ๊ท ์ด๋ค. ์ด๋ฅผ ์์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
$(F1score) = 2 \times \frac{1}{\frac{1}{Precision}+\frac{1} {Recall}} = 2 \times \frac{Precision \times Recall}{Precision+Recall}$
์ด๋ฅผ confusion matrix๋ก ํํํ๋ฉด ๋ค์์ ๊ทธ๋ฆผ 5์ ๊ฐ๋ค.
F1-score๋ ๋ฐ์ดํฐ์ ๋ผ๋ฒจ์ด ๋ถ๊ท ํ ๊ตฌ์กฐ์ผ ๋, ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ํํ๊ฒ ํ๊ฐํ ์ ์์ผ๋ฉฐ, ์ฑ๋ฅ์ ํ๋์ ์ซ์๋ก ํํํ ์ ์๋ค. ์ฌ๊ธฐ์ ๋จ์ ์ฐ์ ํ๊ท ์ ์ฌ์ฉํ์ง ์๋ ์ด์ ๋ ๋ฌด์์ผ๊น? ์ด๋ฅผ ์ดํดํ๊ธฐ ์ํด์๋ ์กฐํํ๊ท ์ ์ดํดํด์ผ๋ง ํ๋ค.
์กฐํํ๊ท ์ ์๋ก ๋ค๋ฅธ ๊ธธ์ด์ A, B์ ์ด ๋ ๊ธธ์ด์ ํฉ๋งํผ ๋จ์ด์ง ๋ณ $($AB$)$์ผ๋ก ์ด๋ฃจ์ด์ง ์ฌ๋ค๋ฆฌ๊ผด์ ์๊ฐํด๋ณด์. ์ด AB์์ ๊ฐ ๋ณ์ ๊ธธ์ด๊ฐ ๋ง๋๋ ์ง์ ์ผ๋ก๋ถํฐ ๋ง์ ํธ์ ์ฌ๋ค๋ฆฌ๊ผด์ ๋ณ์ผ๋ก ๋ด๋ฆฐ ์ ๋ถ์ด ๋ฐ๋ก ์กฐํํ๊ท ์ด๋ค.
๋จ์ํ ํ๊ท ์ด๋ผ๊ธฐ ๋ณด๋ค๋ ์์ ๊ธธ์ด ์ชฝ์ผ๋ก ์น์ฐ์น๊ฒ ๋, ๊ทธ๋ฌ๋ฉด์ ์์ ์ชฝ๊ณผ ํฐ ์ชฝ์ ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง ํ๊ท ์ด ๋์ถ๋๋ค. ์ด๋ ๊ฒ ์กฐํํ๊ท ์ ์ด์ฉํ๋ฉด ์ฐ์ ํ๊ท ์ ์ด์ฉํ๋ ๊ฒ๋ณด๋ค, ํฐ ๋น์ค์ด ๋ผ์น๋ ํธํฅ์ด ์ค์ด๋ ๋ค๊ณ ๋ณผ ์ ์๋ค. ์ด๋ฅผ ํตํด, F1-Score๋ ๋ค์๊ณผ ๊ฐ์ด ์๊ฐํ ์ ์๋ค.
2. ๊ทธ ์ธ์ ์งํ๋ค
์ด ์ธ์๋ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ๋ค์ํ ์งํ๊ฐ ์กด์ฌํ๋ค.
2-1. ROC$($Receiver Operating Characteristic$)$ curve
์ฌ๋ฌ ์๊ณ๊ฐ๋ค์ ๊ธฐ์ค์ผ๋ก ํด์ Recall-Fallout์ ๋ณํ๋ฅผ ์๊ฐํํ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ Fallout์ ์์์ผ๋ก $Fallout(FPR)= \frac{FP} {TN+FP}$ ์ด๋ค. Fallout์ ์ค์ False์ธ ๋ฐ์ดํฐ ์ค์์ ๋ชจ๋ธ์ด Trued๋ก ๋ถ๋ฅํ, ๊ทธ๋ฆฌ๊ณ Recall์ True์ธ ๋ฐ์ดํฐ ์ค์์ ๋ชจ๋ธ์ด True๋ก ๋ถ๋ฅํ ๋น์จ์ ๋ํ๋ธ ์งํ๋ก์จ, ์ด ๋ ์งํ๋ฅผ x, y์ ์ถ์ผ๋ก ๋๊ณ ๊ทธ๋ ค์ง๋ ๊ทธ๋ํ๋ฅผ ํด์ํ๋ค. ์๋์ ๊ทธ๋ฆผ์ด ์ด์ ๋ํ ์์์ด๋ค.
curve๊ฐ ์ผ์ชฝ ์ ๋ชจ์๋ฆฌ์ ๊ฐ๊น์ธ์๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ํ๊ฐํ๋ค. ์ฆ, Recall์ด ํฌ๊ณ Fall-out์ด ์์ ๋ชจํ์ด ์ข์ ๋ชจํ์ธ ๊ฒ์ด๋ค. ๋ํ, $y=x$์ ๊ทธ๋ํ๋ณด๋ค ๋ ์๋จ์ ์์ด์ผ ์ด๋์ ๋ ์ฑ๋ฅ์ด ์๋ค๊ณ ๋งํ ์ ์๋ค.
2-2. AUC$($Area Under Curve$)$
ROC curve๋ ๊ทธ๋ํ์ด๊ธฐ ๋๋ฌธ์ ๋ช ํํ ์์น๋ก์จ ๋น๊ตํ๊ธฐ๊ฐ ์ด๋ ต๋ค. ๋ฐ๋ผ์ ๊ทธ๋ํ ์๋์ ๋ฉด์ ๊ฐ์ ์ด์ฉํ๋ค. ์ด๊ฒ์ด ๋ฐ๋ก AUC$($Area Under Curve$)$์ด๋ค. ์ต๋๊ฐ์ 1์ด๋ฉฐ ์ข์ ๋ชจ๋ธ์ผ์๋ก 1์ ๊ฐ๊น์ด ๊ฐ์ด ๋์จ๋ค.
์ฐธ๊ณ ๋ฌธํ
๋ถ๋ฅ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ ์งํ - Confusion Matrix๋? :: ์ ํ๋(Accuracy), ์ ๋ฐ๋(Precision), ์ฌํ๋(Recall), F1 Sc
๋ถ๋ฅ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ ์งํ Linear ๋ชจ๋ธ์ ๋ํด์๋ R-Square, MSE ๋ฑ ์ผ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ค.๊ทธ๋ ๋ค๋ฉด ๋ถ๋ฅ ๋ชจ๋ธ์ ๋ํด์๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ด๋ป๊ฒ ํ๊ฐํ ์ ์์๊น? ์ฌ๋ฌ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์์ง๋ง,
leedakyeong.tistory.com
https://sumniya.tistory.com/26
๋ถ๋ฅ์ฑ๋ฅํ๊ฐ์งํ - Precision(์ ๋ฐ๋), Recall(์ฌํ์จ) and Accuracy(์ ํ๋)
๊ธฐ๊ณํ์ต์์ ๋ชจ๋ธ์ด๋ ํจํด์ ๋ถ๋ฅ ์ฑ๋ฅ ํ๊ฐ์ ์ฌ์ฉ๋๋ ์งํ๋ค์ ๋ค๋ฃจ๊ฒ ์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ด๋ ๊ฐ์ ๋ฐ์ ์ ์ํ feedback์ ํ์ฌ ๋ชจ๋ธ์ performance๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ํ๊ฐํ๋ ๊ฒ์์๋ถํฐ ์์ํฉ๋
sumniya.tistory.com
'Paper Reading ๐ > Mathematics(์ ํ๋์, ํ๋ฅ ๊ณผ ํต๊ณ, ๋ฏธ์ ๋ถํ)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
ํ๋ฆฌ๋๋ฒ๊ทธ ์ ํ๋์ํ - 5์ฅ ๋๊ฐํ (2) | 2023.01.09 |
---|---|
ํ๋ฆฌ๋๋ฒ๊ทธ ์ ํ๋์ํ - 4์ฅ ํ๋ ฌ์ (2) | 2023.01.05 |
ํ๋ฆฌ๋๋ฒ๊ทธ ์ ํ๋์ํ - 3์ฅ ๊ธฐ๋ณธํ๋ ฌ์ฐ์ฐ๊ณผ ์ฐ๋ฆฝ์ผ์ฐจ๋ฐฉ์ ์ (2) | 2023.01.04 |
ํ๋ฆฌ๋๋ฒ๊ทธ ์ ํ๋์ํ - 2์ฅ ์ ํ๋ณํ๊ณผ ํ๋ ฌ (0) | 2023.01.02 |
ํ๋ฆฌ๋๋ฒ๊ทธ ์ ํ๋์ํ - 1์ฅ ๋ฒกํฐ๊ณต๊ฐ (0) | 2022.12.30 |