๐ํด๋น ํฌ์คํ ์์ ์ฌ์ฉ๋ ์๋ฃ๋ ๊ณ ๋ ค๋ํ๊ต ์ฐ์ ๊ฒฝ์๊ณตํ๋ถ ๊น์ฑ๋ฒ๊ต์๋์ Youtube ๊ฐ์์๋ฃ์ ๊ธฐ๋ฐํ์์ ์๋ ค๋๋ฆฝ๋๋ค. ํน์ฌ๋ ์ถ์ฒ๋ฅผ ๋ฐํ์์๋ ๋ถ๊ตฌํ๊ณ ์ ์๊ถ์ ๋ฌธ์ ๊ฐ ๋๋ค๋ฉด joyh951021@gmail.com์ผ๋ก ์ฐ๋ฝ์ฃผ์๋ฉด ํด๋น ์๋ฃ๋ฅผ ์ญ์ ํ๊ฒ ์ต๋๋ค.(์ ์๊ถ์ ๋ฌธ์ ๊ฐ ๋์ง ์๋๋ก ์ฌ์ง์ ์ต๋ํ ์ ๊ฐ ์ง์ ๋ง๋ ์๋ฃ๋ก ๋์ฒดํ์ต๋๋ค :) )
์ด๋ฒ ํฌ์คํ ์์๋ ์ฃผ์ ์ธ์๋ฅผ ํ์งํ๋ ๋ฐฉ๋ฒ ์ค ํ๋์ธ FDR(False Discovery Rate)์ ๋ํด ์์๋ณด๋ ค๊ณ ํ๋ค. ๋ณธ๊ฒฉ์ ์ผ๋ก FDR์ ๋ํด ์์๋ณด๊ธฐ์ ์์ '์ฃผ์ ์ธ์๋ฅผ ํ์ง'ํ๋ค๋ ๊ฒ์ด ๋ฌด์์ธ์ง ์์๋ณด์.
์ฃผ์ ์ธ์ ํ์ง๋ '์ด์ ํ์ง(Anomaly Detection)'๋ฅผ ํ๊ธฐ ์ํ ๋ถ์์ด๋ผ๊ณ ํ ์ ์๋ค. ์ด์ ํ์ง๋, ํน์ ํ ๋๋ฉ์ธ์์ ์ผ๋ฐ์ ์ผ๋ก ์์๋๋ ํน์ฑ์ ๋ฐ๋ฅด์ง ์๋ ๋ฐ์ดํฐ๋, ์ ์์ผ๋ก ๊ท์ ๋ ๋ฐ์ดํฐ์ ๋ค๋ฅธ ํน์ง์ ๊ฐ์ง๋ ์ฆ, ๋น์ ์์ ์ธ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์๋ด๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ด ๋ ์ฃผ์ ์ธ์ ํ์ง๋ ์ด ๋น์ ์์ ์ธ ๋ฐ์ดํฐ์ ์ฃผ์ํ ํน์ง(์ธ์)๋ฅผ ํ์ํ๊ณ ํ์ ํ๋ ๊ฒ์ด๋ค.
1. ์ฃผ์ ์ธ์๋ผ๋ ๊ฒ์ ์ด๋ป๊ฒ ํ๋จํ ์ ์์๊น?
๋น์ ์์ ์ธ ๋ฐ์ดํฐ๋ ๋ถ๋ช ํ ์ ์์ธ ๋ฐ์ดํฐ์๋ ๋ค๋ฅธ ํจํด์ ๋ณด์ผ ๊ฒ์ด๋ค. ๊ทธ๋ง์ ์ฆ์จ ์ฌ๋ฌ ๋ฐ์ดํฐ ํน์ฑ ์ฆ, ์ฌ๋ฌ๊ฐ์ง ๋ณ์ ์ธก๋ฉด์์ ์ ์ ๋ฐ์ดํฐ์๋ ๋ค๋ฅธ ๊ฐ์ ๊ฐ์ง์ ์๋ฏธํ๋ค. ํ์ง๋ง ์ฌ๊ธฐ์ '๋ค๋ฅธ'์ด๋ผ๋ ๋จ์ด๊ฐ ์ข ์ ๋งค๋ชจํธํ๋ค. ๋๋์ฒด ์ ์ ๋ฐ์ดํฐ์ ์ผ๋ง๋ ๋ฌ๋ผ์ผ ๋น์ ์์ ์ธ ๋ฐ์ดํฐ์ ์ธ์๋ก ์ทจ๊ธํ๋ค๋ ๊ฒ์ผ๊น? ๋ถ๋ช ๊ฐ๊ด์ ์ธ ์งํ๊ฐ ํ์ํ๋ค. ์ฐ๋ฆฌ๋ ์ด ๊ฐ๊ด์ ์ธ ์งํ๋ฅผ ๋ง๋ จํ๊ธฐ ์ํด ํต๊ณ์ ์ผ๋ก ์ ๊ทผ์ ์ทจํ ์ ์๋ค.
์ ๋ฐ์ดํฐ์ฒ๋ผ $p$๊ฐ์ $x$๋ณ์๋ค์ด ์๋ค๊ณ ๊ฐ์ ํด๋ณด์. ์์์ ๋นจ๊ฐ์ ๊ฐ๋ค์ ๋น์ ์์ธ ์ด์(False) ๋ฐ์ดํฐ๋ค์ ํน์ฑ์ด๊ณ ํ๋์ ๊ฐ๋ค์ ์ ์์ธ ๋ฐ์ดํฐ๋ค์ ํน์ฑ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ์์ 4๊ฐ์ง ๋ณ์๋ค ์ค ์ด๋ค ๊ฒ์ด ์ด์ ๋ฐ์ดํฐ์ ํน์ฑ์ ๊ฐ์ฅ ์ ๋ํ๋ผ๊น? ์๋ง ๋๋ถ๋ถ์ ์ฌ๋๋ค์ด $x_2$ ๋ณ์๋ฅผ ๊ฐ๋ฆฌํฌ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ฉด ๊ทธ๋ ๊ฒ ์๊ฐํ ๊ทผ๊ฑฐ๊ฐ ๋ฌด์์ผ๊น? ๋ต์ ๊ฐ๋จํ๋ค. ์ด์์ธ ๋ฐ์ดํฐ๋ค์ ํน์ฑ์ ๋ชจ๋ 10์ด๊ณ ์ ์์ธ ๋ฐ์ดํฐ๋ค์ ๋ชจ๋ 200์ด๊ธฐ ๋๋ฌธ์ด๊ณ ๊ทธ ์ฐจ์ด๊ฐ์ด ๋ค๋ฅธ $x$ ๋ณ์๋ค๋ณด๋ค ์๋ฑํ ํฌ๊ฒ ๋๊ธฐ ๋๋ฌธ์ด๋ค.
๊ทธ๋ ๋ค๋ฉด ์ด๋ฅผ ํต๊ณํ์ ์ธ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๊ฒ ๋๋ฉด ๋ค์๊ณผ ๊ฐ๋ค. ๋น์ ์์ธ ๋ฐ์ดํฐ๋ค์ $x_2$ ๊ฐ๋ค์ ํ๊ท ๊ฐ๊ณผ ์ ์ ๋ฐ์ดํฐ๋ค์ $x_2$ ๊ฐ๋ค์ ํ๊ท ๊ฐ์ ๋น๊ตํด์ ์ด ์ฐจ์ด๊ฐ ํด์๋ก ์ด์์ ํ์งํ๋ ์ฃผ์ ์์ธ(๋ณ์)์ผ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ๋ํ๋ผ ์ ์๋ค.
$$\max\arg i\,[\bar{x_i}_{normal} - \bar{x_i}_{abnormal}], i=(1, 2, 3, \cdots, p)$$
๊ทธ๋์ ํ๋์ ๋ณ์ $x_i$์ ๋ํด ์ ์/๋น์ ์ 2๊ฐ์ ์ง๋จ์ ๋ํ ํ๊ท ์ฐจ์ด ๊ฒ์ ์ธ T-test๋ฅผ ์ํํ๋ฉด ๋๋ค. ๋ฌผ๋ก 2๊ฐ ์ด์์ ์ง๋จ์ ๋ํ T-test๋ฅผ ์ํํ๊ธฐ ์ด์ ์ ๋ ์ง๋จ์ $x_i$๊ฐ๋ค์ ๋ํ ๋ฑ๋ถ์ฐ์ฑ ์ฌ๋ถ๋ฅผ ๋จผ์ ์ฒดํฌํ๋ ๊ฒ์ด ์์์ด๋ค. ๋ฑ๋ถ์ฐ ๊ฒ์ (F-test), T-test ๊ฒ์ ๋ฐฉ๋ฒ, P-value ํด์์ ๋ํ ์ค๋ช ์ ํ๋ค ๋ณด๋ฉด ๋๋ฌด ๊ธธ์ด์ง ๋ฟ๋๋ฌ ํด๋น ์ฃผ์ ๋ฅผ ์ข ๋ฒ์ด๋ ๊ฒ ๊ฐ์์ ๋ง์ฝ ์ด์ ๋ํ ๋ด์ฉ์ ๋ชจ๋ฅธ๋ค๋ฉด ์ฌ๊ธฐ ๋๋ ๋ค๋ฅธ ์ข์ ๋ธ๋ก๊ทธ๋ค์ ์ฐธ๊ณ ํด๋ณด์.
๊ทธ๋์ ๊ฒฐ๊ตญ ๊ฐ $x_i$ ๋ณ์์ ๋ํด T-test ๊ฒ์ ์ ์ํํ๋ฉด ๋๋ค. ๊ทธ๋ฐ๋ฐ ์ต๊ทผ์ ๋ค์ด ๋ณ์๊ฐ ํ๋๋ง ์กด์ฌํ๋ ์ผ๋ณ๋ ๋ฌธ์ ๋ ๊ฑฐ์ ๋ฐ์ํ์ง ์๊ณ ๋๋ถ๋ถ ๋ค๋ณ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด๋ ๊ฒ ๊ฐ์ค์ด ์ฌ๋ฌ๊ฐ์ธ ๋ค์ค ๊ฐ์ค์ ํ ๋ฒ์ ๊ฒ์ ํด์ผ ํ ๊น? ์๋๋ฉด ๊ฐ๊ฐ ๊ฒ์ ํด์ผ ํ ๊น?
2. ํ๋์ ๊ฐ์ค์ ์ฌ๋ฌ๋ฒ ๊ฒ์ ํ๊ธฐ?
์ฐ์ ๋์ผํ $\alpha$(1์ข ์ค๋ฅ๊ฐ ๋ฐ์ํ ํ๋ฅ (๋น์จ))์ ๊ฐ์ ํ๊ณ ๋จ์ผ ๊ฐ์ค์ $p$๋ฒ ๊ฒ์ ํ๋ ๋ฐฉ๋ฒ์ด ์๋ค.(์ด๋ฅผ Individualํ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ๋ ํ๋ค.) ํ์ง๋ง ์ด๋ ๊ฐ์ค์ ๊ฐ์๊ฐ ๋ง์์ง์๋ก $\alpha$๊ฐ์ด ์ฆ๊ฐํ๋ค๋ ์น๋ช ์ ์ธ ๋ฌธ์ ๋ฅผ ๋ฐ์์ํจ๋ค. ๋ค์ ๊ทธ๋ฆผ์ ๋ณด์. $\alpha$๊ฐ์ 0.01๋ก ๋์ผํ๊ฒ ์ค์ ํ๊ณ ๊ฐ์ค์ 100๋ฒ ๊ฒ์ ํ์ ๋์ด๋ค.
์ ํ๋ฅผ ๋ณด๋ฉด ๊ฐ์ค๊ฒ์ ์ 10๋ฒ๊น์ง๋ง ์ํํ๋๋ผ๋ ์ด๊ธฐ๊ฐ์ด 0.01์ด์๋ $\alpha$๊ฐ์ด 0.1๊น์ง ์์นํ ๊ฒ์ ๋ณผ ์ ์๋ค. ์ฌ์ง์ด 100๋ฒ๊น์ง ์ํํ๊ฒ ๋๋ฉด 0.63๊น์ง ์์นํ๊ฒ ๋๋ค. $\alpha$๊ฐ์ด 0.63์ด๋ผ๋ ๊ฒ์ 1์ข ์ค๋ฅ๊ฐ ๋ฐ์ํ ํ๋ฅ ์ 63%๊น์ง๋ ์ธ์ ํ๋ ๊ฒ์ ์๋ฏธํ๋ค. ๊ฒฐ๊ตญ 1์ข ์ค๋ฅ๊ฐ ๋งค์ฐ ๋ง์ด ๋ฐ์ํจ์๋ ๋ฌธ์ ๋ผ๊ณ ์๊ฐํ์ง ์๋๋ค๋ ๊ฒ์ด๋ค! ์ด๋ฌํ ๋ฌธ์ ๋ฅผ Multiplicity ๋ฌธ์ ๋ผ๊ณ ํ๋ค. ๋ฐ๋ผ์ ๋์ผํ $\alpha$๊ฐ์ ์ค์ ํ๊ณ $p$๋ฒ ๋จ์ผ ๊ฐ์ค ๊ฒ์ ์ ๋ฐ๋ณตํ๊ฒ ๋๋ฉด Multiplicity ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
3. ์ฌ๋ฌ๊ฐ์ ๊ฐ์ค์ ํ๋๋ก ์ทจ๊ธํ์!
๊ทธ๋์ ์ด๋ฅผ ํด๊ฒฐํ๊ณ ์ ๋ชจ๋ ๊ฐ์ค์ ํ๋๋ก ์ทจ๊ธํ๋ FWER(Family-Wise Error Rate) ๋ฐฉ๋ฒ์ด ์กด์ฌํ๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ฐ์ค ๊ฒ์ ๊ฐ์๊ฐ 10๊ฐ์ผ ๋๊น์ง๋ Multiplicity ๋ฌธ์ ๋ฅผ ์ด๋์ ๋ ํด๊ฒฐํ์ง๋ง ๊ทธ ์ด์์ 100๊ฐ, 1000๊ฐ๋ก ๊ฐ๊ฒ ๋๋ฉด Individualํ ๋ฐฉ๋ฒ๊ณผ ๋์ผํ๊ฒ Multiplicity ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
4. P-value์ ์๊ณ๊ฐ์ ์ฐพ์, FDR !
๊ฒฐ๊ตญ FWER ๋ฐฉ๋ฒ๋ ํด๊ฒฐํ์ง ๋ชปํ ๋ฌธ์ ์ ์ ๋ณด์ํ๊ธฐ ์ํด FDR(False Discovery Rate) ๋ฐฉ๋ฒ์ด ๋ฑ์ฅํ๋ค. ์ด๋ ๊ธฐ๊ฐ๋ ๊ฐ์ค ์ค ์๋ชป ๊ธฐ๊ฐ๋ ๊ฐ์ค์ด ์ฐจ์งํ๋ ํ๊ท ๋น์จ์ ๋ปํ๋ค. ์ด๋ ๊ฒ๋ง ์ค๋ช ํ๋ฉด ์ดํด๊ฐ ์ ์ ๋๋ค. ์ฐ์ ๋ค์ ๊ทธ๋ฆผ์ ์ดํด๋ณด์.
์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์๊ฒ ์ง๋ง ์ฐ์ ๋์ผํ $\alpha$๊ฐ์ ์ค์ ํ๊ณ ๊ฐ $x_i$์ ๋ํ $p-value$๊ฐ์ ๊ตฌํ๊ณ $p-value$๊ฐ์ด ์์ ์์๋๋ก ์ ๋ ฌํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด ํ๋์ $p-value$์ ๋งคํ๋ ๋ณ์์ธ $x_i$ ์ ๊ฐ์ค๊ฒ์ $H_i$๋ ๊ฐ์ด ์ ๋ ฌ์ด ๋๋ค.
FDR์ ํฌ์ธํธ๋ ์ด๋ ๊ฒ ์ ๋ ฌ๋ $p-value$์์ 'ํน์ ํ $p-value$๊ฐ' ๋ณด๋ค ์์ ๊ฐ์ค ๊ฒ์ ๋ค์ ์ค์ํ ๊ฐ์ค ๊ฒ์ ๋ค์ด๋ฉฐ ๊ฒฐ๊ตญ ๊ทธ ๊ฐ์ค ๊ฒ์ ์ ๋งคํ๋ ๋ณ์ $x_i$๋ค์ ์ด์ ํ์ง์ ์ค์ํ ๋ณ์(์ธ์)์์ ํ๋จํ๋ $p-value\,Threhsold$ ๊ฐ์ ๊ตฌํ๋ ๊ฒ์ด๋ค.
FDR์ ์ด $p-value\,Threhsold$๋ฅผ ๊ตฌํ๊ธฐ ์ํด ํน์ ํ ๊ณต์๊ณผ $\alpha$๊ฐ์ ์ด์ฉํ๋ค๊ณ ํ๋ค. ์ด ๋ $\alpha$๊ฐ์ ๋ชจ๋ ๊ฐ์ค ๊ฒ์ ์ ์ ์ฉํ๋ ๋์ผํ 1์ข ์ค๋ฅ ํ์ฉ ๋น์จ ๊ฐ์ด๋ค. ์ฐ์ $p-value\,Threhsold$๋ฅผ ๊ตฌํ๋ ๊ณต์์ ๋ค์๊ณผ ๊ฐ๋ค. ์ด ๋ $i$๋ ํด๋น $p-value$์ ์์, $m$์ ์ ์ฒด $p-value$์ ์ด ๊ฐ์๋ฅผ ์๋ฏธํ๋ค.(์ฐธ๊ณ ๋ก $\pi_0$๋ ๊ฐ์ ์ ๊ต์๋๊ป์ 1๋ก ์ค์ ํ๋ค๊ณ ์ธ๊ธํ์ จ๋ค. ์์ธํ ๊ฑด ํด๋น ๋ ผ๋ฌธ์ ์ดํด๋ด์ผ ํ ๊ฒ ๊ฐ๋ค.)
$$\widehat{i} = \max i \left[P_i \le {i\over m}\cdot{\alpha\over\pi_0}\right]$$
๊ฒฐ๊ตญ ์ ์กฐ๊ฑด์์ ๋ง์กฑํ๋ $i$๊ฐ์ ์ฐพ์์ผ ํ๋ค. ์ด๋ฅผ ์ดํดํ๊ธฐ ์ํด ์์๋ฅผ ํ๋ ๋ค์ด๋ณด์.
Rank($p-value$ ์ค๋ฆ์ฐจ์) | $p-value$ | $i / m \cdot \alpha$ | ์ค์ ๋ณ์ ์ฌ๋ถ |
1 | 0.0001 | 0.0033 | Yes |
2 | 0.0004 | 0.0067 | Yes |
3 | 0.0019 | 0.0100 | Yes |
4 | 0.0095 | 0.0133 | Yes |
5 | 0.0201 | 0.0167 | No |
6 | 0.0278 | 0.0200 | No |
7 | 0.0298 | 0.0233 | No |
์์ ๊ฐ์ด $p-value$๋ฅผ ์ ๋ ฌํ๊ณ ์์์ ๋ณธ ๊ณต์์ ๋์ ํด ๊ฐ์ ๊ตฌํ๋ค. ์ด์ $p-value\,Threhsold$๋ฅผ ์ฐพ์๋ณด์. ์ ๊ณต์์ ๋ง์กฑํ๋ ๊ฐ์ ์ฐพ๊ธฐ ์ํด์๋ Rank๊ฐ ๋ฎ์ ์์๋ถํฐ ๊ฑฐ์ฌ๋ฌ ์ฌ๋ผ๊ฐ๋ฉด์ $p-value$๊ฐ ๋ ์์์ง๊ธฐ ์์ํ๋ $i$๊ฐ์ ์ฐพ์ผ๋ฉด ๋๋ค.
์ ๋ฐ์ดํฐ์์๋ $i = 4$์ผ ๋ ํด๋น ์กฐ๊ฑด์ ๋ง์กฑํ๋ค. ๋ฐ๋ผ์ Rank๊ฐ 4์ด์ ์ $p-value$๊ฐ์ ํด๋นํ๋ $x_i$ ๋ณ์๋ค์ด ์ค์ํ ๋ณ์์์ ํ๋จํ ์ ์๋ค.
๊ทธ๋ฐ๋ฐ ์ง๊ธ๊น์ง ์์๋ณธ FDR ๋ฐฉ๋ฒ์ ๋ชจ๋ $x_i$๊ฐ๋ค์ด ์ ๊ท๋ถํฌ์์ ๊ฐ์ ํ ์ํ๋ก ์งํํ ๊ฒ์ด๋ค. ์๋ํ๋ฉด ๊ฐ์ค ๊ฒ์ ์ ์งํํ ๋ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ์ ์ ์ฌํ ํํ์ t-๋ถํฌ์์ ๊ฐ์ ํ๊ณ ์งํํ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด $x_i$๊ฐ๋ค์ด ์ ๊ท๋ถํฌ์ธ์ง ์๋์ง ๋ชจ๋ฅผ ๋๋ ์ด๋ป๊ฒ ํ ๊น?
5. ๋น๋ชจ์ ๋ฐฉ๋ฒ๋ก ์ผ๋ก์์ ์ผ๋ณ๋ FDR !
๋ฐ๋ก ๋ฐ๋ณต Sampling ๊ธฐ๋ฐ FDR์ ์ํํ๋ฉด ๋๋ค. ์ด๋ ์ฃผ์ด์ง $x_i$ ๋ณ์์ ๊ฐ๋ค์ ๋ง๊ตฌ์๋ shuffle์ ๋ฐ๋ณต์ ์ผ๋ก ์ํ ํ๊ณ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก FDR์ ์ํํ๋ ๊ฒ์ด๋ค. ๋ค์ ๊ทธ๋ฆผ์ ๋ณด์.
์์ฒ๋ผ $x_1$์ ๋ํด ๋ฐ๋ณต์ ์ผ๋ก shuffle์ ์ํํ๊ณ ์ ์/๋น์ ์ ์ง๋จ์ ๋ฐ๋ผ ํ๊ท ๊ฐ์ ์ทจํ๊ณ ๊ทธ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๋ค.
$$ T_x = {\left\vert \bar{x_i}_{normal} \right\vert} - {\left\vert \bar{x_i}_{abnormal} \right\vert}$$
๊ทธ๋ฆฌ๊ณ $n$๋ฒ ๋ฐ๋ณตํด Shuffleํ ํ์๋งํผ์ $T_x$๋ฅผ ๊ตฌํ๊ณ ์ด $n$๊ฐ์ $T_x$ ์ค Shuffleํ๊ธฐ ์ ์ธ $T_x$๋ณด๋ค ํฐ ๊ฐ์ด ๋ช ๊ฐ์ธ์ง ๋น์จ์ ๊ณ์ฐํจ์ผ๋ก์จ $p-value$๋ฅผ ๊ณ์ฐํ ์ ์๋ค.
$$p-value_x = {{Number\,\ge T_x}\over{Sampling\,number\,of\,shuffle}}$$
6. ๋น๋ชจ์๋ฐฉ๋ฒ๋ก ์ผ๋ก์์ ๋ค๋ณ๋ FDR !
๋ค์์ ์ ์ํฉ์์ ๋ค๋ณ๋์ ๋ณ์๊ฐ ์กด์ฌํ ๋ ๋ฐ๋ณต Sampling ๊ธฐ๋ฐ FDR์ ์ํํ๋ ๋ฐฉ๋ฒ์ ์์๋ณด์. ๋ณธ์ง์ ๋๊ฐ์ผ๋ $p-value$ ๊ณ์ฐ์์์ ๋ถ๋ชจ์ ๋ณ์์ ๊ฐ์๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ๊ณฑํด์ค๋ค. ์ฆ, ๋ค๋ฅธ ๋ณ์์ ์กด์ฌ๋ ๊ณ ๋ คํด์ฃผ๋ ๊ฒ์ด๋ค. ๊ณต์์ ๋ค์๊ณผ ๊ฐ๋ค.
$$p-value_x = {{Number\,\ge T_x}\over{Sampling\,number\,of\,shuffle \cdot number of features}}$$
์๋ฅผ ๋ค์ด, $x_1$์ $x_2$ ๋ ๊ฐ์ ๋ณ์๊ฐ ์กด์ฌํ ๋, $x_1$์ $p-value$๋ฅผ ๊ตฌํ๊ธฐ ์ํด์ $x_1$๋ฟ๋ง ์๋๋ผ $x_2$๋ ๋ค ๊ฐ์ด shuffle์ ์ํจ ํ ์ง๋จ์ ๋ฐ๋ฅธ ํ๊ท ์ฐจ์ด ๊ฐ์ ๊ตฌํ๊ณ $T_{x1}$๊ณผ ๋น๊ตํ ๋ $T_{x2}$๋ก ๊ตฌํด์ง $T_{x2}$์๋ ๋น๊ต๋ฅผ ํ๋ ์ ์ด๋ค.
๋ง์ฝ $T_{x1}$ ๊ฐ์ด ๋งค์ฐ ํฐ ๊ฐ์ด๋ผ๊ณ ํ์ ๋, $T_{x2}$๊ฐ์ด ์ค์ $T_{x1}$๊ฐ ๋ณด๋ค ๋งค์ฐ ํฐ ๊ฐ์ด ์๋ค๋ฉด ๊ทธ๊ฒ์ ๊ฒฐ๊ตญ $x_2$๊ฐ $x_1$๋ณด๋ค๋ ์ค์ํ๋ค๋ ๋ป์ด๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋์ ๋ค๋ฅธ ๋ณ์์์ ๋น๊ต๋ฅผ ํตํด ๋ค๋ฅธ ๋ณ์๋ค์ ๊ณ ๋ คํ๊ฒ ๋๋ ๊ฒ์ด๋ค.
'Data Science > Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Explainable AI - Shapley Value (0) | 2021.07.25 |
---|---|
[ML] Unbiased boosting : CatBoost (0) | 2021.07.18 |
[ML] Partial Least Squares(๋ถ๋ถ ์ต์์ ๊ณฑ๋ฒ) (2) | 2021.03.14 |
[ML] Regression metric ๊ณผ Elastic net regression (2) | 2021.01.18 |
[ML] Out Of Fold(OOF) ๋ฐฉ๋ฒ์ผ๋ก ๋ชจ๋ธ ํ๊ฐํ๊ธฐ (4) | 2021.01.11 |