๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

Data Science/Machine Learning

[ML] ์ฃผ์š” ์ธ์ž ํƒ์ง€ ๋ฐฉ๋ฒ•์ธ FDR(False Discovery Rate)

๋ฐ˜์‘ํ˜•

๐Ÿ”‰ํ•ด๋‹น ํฌ์ŠคํŒ…์—์„œ ์‚ฌ์šฉ๋œ ์ž๋ฃŒ๋Š” ๊ณ ๋ ค๋Œ€ํ•™๊ต ์‚ฐ์—…๊ฒฝ์˜๊ณตํ•™๋ถ€ ๊น€์„ฑ๋ฒ”๊ต์ˆ˜๋‹˜์˜ Youtube ๊ฐ•์˜์ž๋ฃŒ์— ๊ธฐ๋ฐ˜ํ–ˆ์Œ์„ ์•Œ๋ ค๋“œ๋ฆฝ๋‹ˆ๋‹ค. ํ˜น์—ฌ๋‚˜ ์ถœ์ฒ˜๋ฅผ ๋ฐํ˜”์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ €์ž‘๊ถŒ์˜ ๋ฌธ์ œ๊ฐ€ ๋œ๋‹ค๋ฉด joyh951021@gmail.com์œผ๋กœ ์—ฐ๋ฝ์ฃผ์‹œ๋ฉด ํ•ด๋‹น ์ž๋ฃŒ๋ฅผ ์‚ญ์ œํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.(์ €์ž‘๊ถŒ์˜ ๋ฌธ์ œ๊ฐ€ ๋˜์ง€ ์•Š๋„๋ก ์‚ฌ์ง„์€ ์ตœ๋Œ€ํ•œ ์ œ๊ฐ€ ์ง์ ‘ ๋งŒ๋“  ์ž๋ฃŒ๋กœ ๋Œ€์ฒดํ–ˆ์Šต๋‹ˆ๋‹ค :) )

 

์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ์ฃผ์š” ์ธ์ž๋ฅผ ํƒ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ธ FDR(False Discovery Rate)์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋ ค๊ณ  ํ•œ๋‹ค. ๋ณธ๊ฒฉ์ ์œผ๋กœ FDR์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ธฐ์— ์•ž์„œ '์ฃผ์š” ์ธ์ž๋ฅผ ํƒ์ง€'ํ•œ๋‹ค๋Š” ๊ฒƒ์ด ๋ฌด์—‡์ธ์ง€ ์•Œ์•„๋ณด์ž.

 

์ฃผ์š” ์ธ์ž ํƒ์ง€๋Š” '์ด์ƒ ํƒ์ง€(Anomaly Detection)'๋ฅผ ํ•˜๊ธฐ ์œ„ํ•œ ๋ถ„์„์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด์ƒ ํƒ์ง€๋ž€, ํŠน์ •ํ•œ ๋„๋ฉ”์ธ์—์„œ ์ผ๋ฐ˜์ ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ํŠน์„ฑ์„ ๋”ฐ๋ฅด์ง€ ์•Š๋Š” ๋ฐ์ดํ„ฐ๋‚˜, ์ •์ƒ์œผ๋กœ ๊ทœ์ •๋œ ๋ฐ์ดํ„ฐ์™€ ๋‹ค๋ฅธ ํŠน์ง•์„ ๊ฐ€์ง€๋Š” ์ฆ‰, ๋น„์ •์ƒ์ ์ธ ๋ฐ์ดํ„ฐ๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์ด ๋•Œ ์ฃผ์š” ์ธ์ž ํƒ์ง€๋Š” ์ด ๋น„์ •์ƒ์ ์ธ ๋ฐ์ดํ„ฐ์˜ ์ฃผ์š”ํ•œ ํŠน์ง•(์ธ์ž)๋ฅผ ํƒ์ƒ‰ํ•˜๊ณ  ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

 

์ฃผ์š” ์ธ์ž ํƒ์ง€๋Š” ๋น„์ •์ƒ์ ์ธ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

1. ์ฃผ์š” ์ธ์ž๋ผ๋Š” ๊ฒƒ์„ ์–ด๋–ป๊ฒŒ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ์„๊นŒ?

๋น„์ •์ƒ์ ์ธ ๋ฐ์ดํ„ฐ๋Š” ๋ถ„๋ช…ํžˆ ์ •์ƒ์ธ ๋ฐ์ดํ„ฐ์™€๋Š” ๋‹ค๋ฅธ ํŒจํ„ด์„ ๋ณด์ผ ๊ฒƒ์ด๋‹ค. ๊ทธ๋ง์€ ์ฆ‰์Šจ ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ ํŠน์„ฑ ์ฆ‰, ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๋ณ€์ˆ˜ ์ธก๋ฉด์—์„œ ์ •์ƒ ๋ฐ์ดํ„ฐ์™€๋Š” ๋‹ค๋ฅธ ๊ฐ’์„ ๊ฐ€์ง์„ ์˜๋ฏธํ•œ๋‹ค. ํ•˜์ง€๋งŒ ์—ฌ๊ธฐ์„œ '๋‹ค๋ฅธ'์ด๋ผ๋Š” ๋‹จ์–ด๊ฐ€ ์ข€ ์• ๋งค๋ชจํ˜ธํ•˜๋‹ค. ๋„๋Œ€์ฒด ์ •์ƒ ๋ฐ์ดํ„ฐ์™€ ์–ผ๋งˆ๋‚˜ ๋‹ฌ๋ผ์•ผ ๋น„์ •์ƒ์ ์ธ ๋ฐ์ดํ„ฐ์˜ ์ธ์ž๋กœ ์ทจ๊ธ‰ํ•œ๋‹ค๋Š” ๊ฒƒ์ผ๊นŒ? ๋ถ„๋ช… ๊ฐ๊ด€์ ์ธ ์ง€ํ‘œ๊ฐ€ ํ•„์š”ํ•˜๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด ๊ฐ๊ด€์ ์ธ ์ง€ํ‘œ๋ฅผ ๋งˆ๋ จํ•˜๊ธฐ ์œ„ํ•ด ํ†ต๊ณ„์ ์œผ๋กœ ์ ‘๊ทผ์„ ์ทจํ•  ์ˆ˜ ์žˆ๋‹ค.

 

$p$๊ฐœ์˜ $x$๋ณ€์ˆ˜๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž.

 

์œ„ ๋ฐ์ดํ„ฐ์ฒ˜๋Ÿผ $p$๊ฐœ์˜ $x$๋ณ€์ˆ˜๋“ค์ด ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž. ์œ„์—์„œ ๋นจ๊ฐ„์ƒ‰ ๊ฐ’๋“ค์€ ๋น„์ •์ƒ์ธ ์ด์ƒ(False) ๋ฐ์ดํ„ฐ๋“ค์˜ ํŠน์„ฑ์ด๊ณ  ํŒŒ๋ž€์ƒ‰ ๊ฐ’๋“ค์€ ์ •์ƒ์ธ ๋ฐ์ดํ„ฐ๋“ค์˜ ํŠน์„ฑ์ด๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์œ„์˜ 4๊ฐ€์ง€ ๋ณ€์ˆ˜๋“ค ์ค‘ ์–ด๋–ค ๊ฒƒ์ด ์ด์ƒ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ๊ฐ€์žฅ ์ž˜ ๋‚˜ํƒ€๋‚ผ๊นŒ? ์•„๋งˆ ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ๋žŒ๋“ค์ด $x_2$ ๋ณ€์ˆ˜๋ฅผ ๊ฐ€๋ฆฌํ‚ฌ ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ๊ทธ๋ ‡๊ฒŒ ์ƒ๊ฐํ•œ ๊ทผ๊ฑฐ๊ฐ€ ๋ฌด์—‡์ผ๊นŒ? ๋‹ต์€ ๊ฐ„๋‹จํ•˜๋‹ค. ์ด์ƒ์ธ ๋ฐ์ดํ„ฐ๋“ค์˜ ํŠน์„ฑ์€ ๋ชจ๋‘ 10์ด๊ณ  ์ •์ƒ์ธ ๋ฐ์ดํ„ฐ๋“ค์€ ๋ชจ๋‘ 200์ด๊ธฐ ๋•Œ๋ฌธ์ด๊ณ  ๊ทธ ์ฐจ์ด๊ฐ’์ด ๋‹ค๋ฅธ $x$ ๋ณ€์ˆ˜๋“ค๋ณด๋‹ค ์›”๋“ฑํžˆ ํฌ๊ฒŒ ๋‚˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

 

๊ทธ๋ ‡๋‹ค๋ฉด ์ด๋ฅผ ํ†ต๊ณ„ํ•™์ ์ธ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๊ฒŒ ๋˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ๋น„์ •์ƒ์ธ ๋ฐ์ดํ„ฐ๋“ค์˜ $x_2$ ๊ฐ’๋“ค์˜ ํ‰๊ท ๊ฐ’๊ณผ ์ •์ƒ ๋ฐ์ดํ„ฐ๋“ค์˜ $x_2$ ๊ฐ’๋“ค์˜ ํ‰๊ท ๊ฐ’์„ ๋น„๊ตํ•ด์„œ ์ด ์ฐจ์ด๊ฐ€ ํด์ˆ˜๋ก ์ด์ƒ์„ ํƒ์ง€ํ•˜๋Š” ์ฃผ์š” ์š”์ธ(๋ณ€์ˆ˜)์ผ ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ˆ˜์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

 

$$\max\arg i\,[\bar{x_i}_{normal} - \bar{x_i}_{abnormal}],   i=(1, 2, 3, \cdots, p)$$

 

๊ทธ๋ž˜์„œ ํ•˜๋‚˜์˜ ๋ณ€์ˆ˜ $x_i$์— ๋Œ€ํ•ด ์ •์ƒ/๋น„์ •์ƒ 2๊ฐœ์˜ ์ง‘๋‹จ์— ๋Œ€ํ•œ ํ‰๊ท  ์ฐจ์ด ๊ฒ€์ •์ธ T-test๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ฉด ๋œ๋‹ค. ๋ฌผ๋ก  2๊ฐœ ์ด์ƒ์˜ ์ง‘๋‹จ์— ๋Œ€ํ•œ T-test๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์ด์ „์— ๋‘ ์ง‘๋‹จ์˜ $x_i$๊ฐ’๋“ค์— ๋Œ€ํ•œ ๋“ฑ๋ถ„์‚ฐ์„ฑ ์—ฌ๋ถ€๋ฅผ ๋จผ์ € ์ฒดํฌํ•˜๋Š” ๊ฒƒ์ด ์ˆœ์„œ์ด๋‹ค. ๋“ฑ๋ถ„์‚ฐ ๊ฒ€์ •(F-test), T-test ๊ฒ€์ • ๋ฐฉ๋ฒ•, P-value ํ•ด์„์— ๋Œ€ํ•œ ์„ค๋ช…์„ ํ•˜๋‹ค ๋ณด๋ฉด ๋„ˆ๋ฌด ๊ธธ์–ด์งˆ ๋ฟ๋”๋Ÿฌ ํ•ด๋‹น ์ฃผ์ œ๋ฅผ ์ข€ ๋ฒ—์–ด๋‚  ๊ฒƒ ๊ฐ™์•„์„œ ๋งŒ์•ฝ ์ด์— ๋Œ€ํ•œ ๋‚ด์šฉ์„ ๋ชจ๋ฅธ๋‹ค๋ฉด ์—ฌ๊ธฐ ๋˜๋Š” ๋‹ค๋ฅธ ์ข‹์€ ๋ธ”๋กœ๊ทธ๋“ค์„ ์ฐธ๊ณ ํ•ด๋ณด์ž.

 

๊ทธ๋ž˜์„œ ๊ฒฐ๊ตญ ๊ฐ $x_i$ ๋ณ€์ˆ˜์— ๋Œ€ํ•ด T-test ๊ฒ€์ •์„ ์ˆ˜ํ–‰ํ•˜๋ฉด ๋œ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์ตœ๊ทผ์— ๋“ค์–ด ๋ณ€์ˆ˜๊ฐ€ ํ•˜๋‚˜๋งŒ ์กด์žฌํ•˜๋Š” ์ผ๋ณ€๋Ÿ‰ ๋ฌธ์ œ๋Š” ๊ฑฐ์˜ ๋ฐœ์ƒํ•˜์ง€ ์•Š๊ณ  ๋Œ€๋ถ€๋ถ„ ๋‹ค๋ณ€๋Ÿ‰ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์ด๋ ‡๊ฒŒ ๊ฐ€์„ค์ด ์—ฌ๋Ÿฌ๊ฐœ์ธ ๋‹ค์ค‘ ๊ฐ€์„ค์„ ํ•œ ๋ฒˆ์— ๊ฒ€์ •ํ•ด์•ผ ํ• ๊นŒ? ์•„๋‹ˆ๋ฉด ๊ฐ๊ฐ ๊ฒ€์ •ํ•ด์•ผ ํ• ๊นŒ?

2. ํ•˜๋‚˜์˜ ๊ฐ€์„ค์„ ์—ฌ๋Ÿฌ๋ฒˆ ๊ฒ€์ •ํ•˜๊ธฐ?

์šฐ์„  ๋™์ผํ•œ $\alpha$(1์ข… ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ (๋น„์œจ))์„ ๊ฐ€์ •ํ•˜๊ณ  ๋‹จ์ผ ๊ฐ€์„ค์„ $p$๋ฒˆ ๊ฒ€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.(์ด๋ฅผ Individualํ•œ ๋ฐฉ๋ฒ•์ด๋ผ๊ณ  ๋„ ํ•œ๋‹ค.) ํ•˜์ง€๋งŒ ์ด๋Š” ๊ฐ€์„ค์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก $\alpha$๊ฐ’์ด ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ์น˜๋ช…์ ์ธ ๋ฌธ์ œ๋ฅผ ๋ฐœ์ƒ์‹œํ‚จ๋‹ค. ๋‹ค์Œ ๊ทธ๋ฆผ์„ ๋ณด์ž. $\alpha$๊ฐ’์„ 0.01๋กœ ๋™์ผํ•˜๊ฒŒ ์„ค์ •ํ•˜๊ณ  ๊ฐ€์„ค์„ 100๋ฒˆ ๊ฒ€์ •ํ–ˆ์„ ๋•Œ์ด๋‹ค.

 

100๋ฒˆ์˜ ๊ฐ€์„ค๊ฒ€์ •์„ ํ•œ ํ›„ $\alpha$๊ฐ’์˜ ๋ณ€ํ™”

 

์œ„ ํ‘œ๋ฅผ ๋ณด๋ฉด ๊ฐ€์„ค๊ฒ€์ •์„ 10๋ฒˆ๊นŒ์ง€๋งŒ ์ˆ˜ํ–‰ํ•˜๋”๋ผ๋„ ์ดˆ๊ธฐ๊ฐ’์ด 0.01์ด์—ˆ๋˜ $\alpha$๊ฐ’์ด 0.1๊นŒ์ง€ ์ƒ์Šนํ•œ ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์‹ฌ์ง€์–ด 100๋ฒˆ๊นŒ์ง€ ์ˆ˜ํ–‰ํ•˜๊ฒŒ ๋˜๋ฉด 0.63๊นŒ์ง€ ์ƒ์Šนํ•˜๊ฒŒ ๋œ๋‹ค. $\alpha$๊ฐ’์ด 0.63์ด๋ผ๋Š” ๊ฒƒ์€ 1์ข… ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์„ 63%๊นŒ์ง€๋Š” ์ธ์ •ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ๊ฒฐ๊ตญ 1์ข… ์˜ค๋ฅ˜๊ฐ€ ๋งค์šฐ ๋งŽ์ด ๋ฐœ์ƒํ•จ์—๋„ ๋ฌธ์ œ๋ผ๊ณ  ์ƒ๊ฐํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์ด๋‹ค! ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ Multiplicity ๋ฌธ์ œ๋ผ๊ณ  ํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ๋™์ผํ•œ $\alpha$๊ฐ’์„ ์„ค์ •ํ•˜๊ณ  $p$๋ฒˆ ๋‹จ์ผ ๊ฐ€์„ค ๊ฒ€์ •์„ ๋ฐ˜๋ณตํ•˜๊ฒŒ ๋˜๋ฉด Multiplicity ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

3. ์—ฌ๋Ÿฌ๊ฐœ์˜ ๊ฐ€์„ค์„ ํ•˜๋‚˜๋กœ ์ทจ๊ธ‰ํ•˜์ž!

๊ทธ๋ž˜์„œ ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž ๋ชจ๋“  ๊ฐ€์„ค์„ ํ•˜๋‚˜๋กœ ์ทจ๊ธ‰ํ•˜๋Š” FWER(Family-Wise Error Rate) ๋ฐฉ๋ฒ•์ด ์กด์žฌํ•œ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ๊ฐ€์„ค ๊ฒ€์ • ๊ฐœ์ˆ˜๊ฐ€ 10๊ฐœ์ผ ๋•Œ๊นŒ์ง€๋Š” Multiplicity ๋ฌธ์ œ๋ฅผ ์–ด๋Š์ •๋„ ํ•ด๊ฒฐํ•˜์ง€๋งŒ ๊ทธ ์ด์ƒ์˜ 100๊ฐœ, 1000๊ฐœ๋กœ ๊ฐ€๊ฒŒ ๋˜๋ฉด Individualํ•œ ๋ฐฉ๋ฒ•๊ณผ ๋™์ผํ•˜๊ฒŒ Multiplicity ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

4. P-value์˜ ์ž„๊ณ—๊ฐ’์„ ์ฐพ์ž, FDR !

๊ฒฐ๊ตญ FWER ๋ฐฉ๋ฒ•๋„ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ•œ ๋ฌธ์ œ์ ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด FDR(False Discovery Rate) ๋ฐฉ๋ฒ•์ด ๋“ฑ์žฅํ•œ๋‹ค. ์ด๋Š” ๊ธฐ๊ฐ๋œ ๊ฐ€์„ค ์ค‘ ์ž˜๋ชป ๊ธฐ๊ฐ๋œ ๊ฐ€์„ค์ด ์ฐจ์ง€ํ•˜๋Š” ํ‰๊ท  ๋น„์œจ์„ ๋œปํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ๋งŒ ์„ค๋ช…ํ•˜๋ฉด ์ดํ•ด๊ฐ€ ์ž˜ ์•ˆ ๋œ๋‹ค. ์šฐ์„  ๋‹ค์Œ ๊ทธ๋ฆผ์„ ์‚ดํŽด๋ณด์ž.

 

P-value๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์˜ค๋ฆ„์ฐจ์ˆœ ์ •๋ ฌํ•˜์ž.

 

์œ„ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์•Œ๊ฒ ์ง€๋งŒ ์šฐ์„  ๋™์ผํ•œ $\alpha$๊ฐ’์„ ์„ค์ •ํ•˜๊ณ  ๊ฐ $x_i$์— ๋Œ€ํ•œ $p-value$๊ฐ’์„ ๊ตฌํ•˜๊ณ  $p-value$๊ฐ’์ด ์ž‘์€ ์ˆœ์„œ๋Œ€๋กœ ์ •๋ ฌํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ํ•˜๋‚˜์˜ $p-value$์— ๋งคํ•‘๋œ ๋ณ€์ˆ˜์ธ $x_i$ ์™€ ๊ฐ€์„ค๊ฒ€์ • $H_i$๋„ ๊ฐ™์ด ์ •๋ ฌ์ด ๋œ๋‹ค.

 

FDR์˜ ํฌ์ธํŠธ๋Š” ์ด๋ ‡๊ฒŒ ์ •๋ ฌ๋œ $p-value$์—์„œ 'ํŠน์ •ํ•œ $p-value$๊ฐ’' ๋ณด๋‹ค ์ž‘์€ ๊ฐ€์„ค ๊ฒ€์ •๋“ค์€ ์ค‘์š”ํ•œ ๊ฐ€์„ค ๊ฒ€์ •๋“ค์ด๋ฉฐ ๊ฒฐ๊ตญ ๊ทธ ๊ฐ€์„ค ๊ฒ€์ •์— ๋งคํ•‘๋œ ๋ณ€์ˆ˜ $x_i$๋“ค์€ ์ด์ƒ ํƒ์ง€์— ์ค‘์š”ํ•œ ๋ณ€์ˆ˜(์ธ์ž)์ž„์„ ํŒ๋‹จํ•˜๋Š” $p-value\,Threhsold$ ๊ฐ’์„ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

 

FDR์„ ์ด์šฉํ•ด $p-value Threshold$๊ฐ’์„ ๊ตฌํ•ด๋ณด์ž.

 

FDR์€ ์ด $p-value\,Threhsold$๋ฅผ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ํŠน์ •ํ•œ ๊ณต์‹๊ณผ $\alpha$๊ฐ’์„ ์ด์šฉํ•œ๋‹ค๊ณ  ํ•œ๋‹ค. ์ด ๋•Œ $\alpha$๊ฐ’์€ ๋ชจ๋“  ๊ฐ€์„ค ๊ฒ€์ • ์‹œ ์ ์šฉํ•˜๋Š” ๋™์ผํ•œ 1์ข… ์˜ค๋ฅ˜ ํ—ˆ์šฉ ๋น„์œจ ๊ฐ’์ด๋‹ค. ์šฐ์„  $p-value\,Threhsold$๋ฅผ ๊ตฌํ•˜๋Š” ๊ณต์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ์ด ๋•Œ $i$๋Š” ํ•ด๋‹น $p-value$์˜ ์ˆœ์œ„, $m$์€ ์ „์ฒด $p-value$์˜ ์ด ๊ฐœ์ˆ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค.(์ฐธ๊ณ ๋กœ $\pi_0$๋Š” ๊ฐ•์˜ ์† ๊ต์ˆ˜๋‹˜๊ป˜์„œ 1๋กœ ์„ค์ •ํ•œ๋‹ค๊ณ  ์–ธ๊ธ‰ํ•˜์…จ๋‹ค. ์ž์„ธํ•œ ๊ฑด ํ•ด๋‹น ๋…ผ๋ฌธ์„ ์‚ดํŽด๋ด์•ผ ํ•  ๊ฒƒ ๊ฐ™๋‹ค.)

 

$$\widehat{i} = \max i \left[P_i \le {i\over m}\cdot{\alpha\over\pi_0}\right]$$

 

๊ฒฐ๊ตญ ์œ„ ์กฐ๊ฑด์‹์„ ๋งŒ์กฑํ•˜๋Š” $i$๊ฐ’์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ์ด๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ์˜ˆ์‹œ๋ฅผ ํ•˜๋‚˜ ๋“ค์–ด๋ณด์ž.

 

Rank($p-value$ ์˜ค๋ฆ„์ฐจ์ˆœ) $p-value$ $i / m \cdot \alpha$ ์ค‘์š” ๋ณ€์ˆ˜ ์—ฌ๋ถ€
1 0.0001 0.0033 Yes
2 0.0004 0.0067 Yes
3 0.0019 0.0100 Yes
4 0.0095 0.0133 Yes
5 0.0201 0.0167 No
6 0.0278 0.0200 No
7 0.0298 0.0233 No

 

์œ„์™€ ๊ฐ™์ด $p-value$๋ฅผ ์ •๋ ฌํ•˜๊ณ  ์œ„์—์„œ ๋ณธ ๊ณต์‹์— ๋Œ€์ž…ํ•ด ๊ฐ’์„ ๊ตฌํ–ˆ๋‹ค. ์ด์ œ $p-value\,Threhsold$๋ฅผ ์ฐพ์•„๋ณด์ž. ์œ„ ๊ณต์‹์„ ๋งŒ์กฑํ•˜๋Š” ๊ฐ’์„ ์ฐพ๊ธฐ ์œ„ํ•ด์„œ๋Š” Rank๊ฐ€ ๋‚ฎ์€ ์ˆœ์œ„๋ถ€ํ„ฐ ๊ฑฐ์Šฌ๋Ÿฌ ์˜ฌ๋ผ๊ฐ€๋ฉด์„œ $p-value$๊ฐ€ ๋” ์ž‘์•„์ง€๊ธฐ ์‹œ์ž‘ํ•˜๋Š” $i$๊ฐ’์„ ์ฐพ์œผ๋ฉด ๋œ๋‹ค.

 

์œ„ ๋ฐ์ดํ„ฐ์—์„œ๋Š” $i = 4$์ผ ๋•Œ ํ•ด๋‹น ์กฐ๊ฑด์„ ๋งŒ์กฑํ•œ๋‹ค. ๋”ฐ๋ผ์„œ Rank๊ฐ€ 4์ด์ „์˜ $p-value$๊ฐ’์— ํ•ด๋‹นํ•˜๋Š” $x_i$ ๋ณ€์ˆ˜๋“ค์ด ์ค‘์š”ํ•œ ๋ณ€์ˆ˜์ž„์„ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๊ทธ๋Ÿฐ๋ฐ ์ง€๊ธˆ๊นŒ์ง€ ์•Œ์•„๋ณธ FDR ๋ฐฉ๋ฒ•์€ ๋ชจ๋“  $x_i$๊ฐ’๋“ค์ด ์ •๊ทœ๋ถ„ํฌ์ž„์„ ๊ฐ€์ •ํ•œ ์ƒํƒœ๋กœ ์ง„ํ–‰ํ•œ ๊ฒƒ์ด๋‹ค. ์™œ๋ƒํ•˜๋ฉด ๊ฐ€์„ค ๊ฒ€์ •์„ ์ง„ํ–‰ํ•  ๋•Œ ๋ถ„ํฌ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ์™€ ์œ ์‚ฌํ•œ ํ˜•ํƒœ์˜ t-๋ถ„ํฌ์ž„์„ ๊ฐ€์ •ํ•˜๊ณ  ์ง„ํ–‰ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด $x_i$๊ฐ’๋“ค์ด ์ •๊ทœ๋ถ„ํฌ์ธ์ง€ ์•„๋‹Œ์ง€ ๋ชจ๋ฅผ ๋•Œ๋Š” ์–ด๋–ป๊ฒŒ ํ• ๊นŒ?

5. ๋น„๋ชจ์ˆ˜ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ์„œ์˜ ์ผ๋ณ€๋Ÿ‰ FDR !

๋ฐ”๋กœ ๋ฐ˜๋ณต Sampling ๊ธฐ๋ฐ˜ FDR์„ ์ˆ˜ํ–‰ํ•˜๋ฉด ๋œ๋‹ค. ์ด๋Š” ์ฃผ์–ด์ง„ $x_i$ ๋ณ€์ˆ˜์˜ ๊ฐ’๋“ค์„ ๋งˆ๊ตฌ์„ž๋Š” shuffle์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ ํ•˜๊ณ  ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ FDR์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋‹ค์Œ ๊ทธ๋ฆผ์„ ๋ณด์ž.

 

$x_1$์„ ๋ฐ˜๋ณต์ ์œผ๋กœ Shuffle ์‹œ์ผœ๋ณด์ž.

 

์œ„์ฒ˜๋Ÿผ $x_1$์— ๋Œ€ํ•ด ๋ฐ˜๋ณต์ ์œผ๋กœ shuffle์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ์ •์ƒ/๋น„์ •์ƒ ์ง‘๋‹จ์— ๋”ฐ๋ผ ํ‰๊ท ๊ฐ’์„ ์ทจํ•˜๊ณ  ๊ทธ ์ฐจ์ด๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค.

 

$$ T_x = {\left\vert \bar{x_i}_{normal} \right\vert} - {\left\vert \bar{x_i}_{abnormal} \right\vert}$$

 

๊ทธ๋ฆฌ๊ณ  $n$๋ฒˆ ๋ฐ˜๋ณตํ•ด Shuffleํ•œ ํšŸ์ˆ˜๋งŒํผ์˜ $T_x$๋ฅผ ๊ตฌํ•˜๊ณ  ์ด $n$๊ฐœ์˜ $T_x$ ์ค‘ Shuffleํ•˜๊ธฐ ์ „์ธ $T_x$๋ณด๋‹ค ํฐ ๊ฐ’์ด ๋ช‡ ๊ฐœ์ธ์ง€ ๋น„์œจ์„ ๊ณ„์‚ฐํ•จ์œผ๋กœ์จ $p-value$๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

 

$$p-value_x = {{Number\,\ge T_x}\over{Sampling\,number\,of\,shuffle}}$$

6. ๋น„๋ชจ์ˆ˜๋ฐฉ๋ฒ•๋ก ์œผ๋กœ์„œ์˜ ๋‹ค๋ณ€๋Ÿ‰ FDR !

๋‹ค์Œ์€ ์œ„ ์ƒํ™ฉ์—์„œ ๋‹ค๋ณ€๋Ÿ‰์˜ ๋ณ€์ˆ˜๊ฐ€ ์กด์žฌํ•  ๋•Œ ๋ฐ˜๋ณต Sampling ๊ธฐ๋ฐ˜ FDR์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์•Œ์•„๋ณด์ž. ๋ณธ์งˆ์€ ๋˜‘๊ฐ™์œผ๋‚˜ $p-value$ ๊ณ„์‚ฐ์‹์—์„œ ๋ถ„๋ชจ์— ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜๋ฅผ ์ถ”๊ฐ€์ ์œผ๋กœ ๊ณฑํ•ด์ค€๋‹ค. ์ฆ‰, ๋‹ค๋ฅธ ๋ณ€์ˆ˜์˜ ์กด์žฌ๋„ ๊ณ ๋ คํ•ด์ฃผ๋Š” ๊ฒƒ์ด๋‹ค. ๊ณต์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

$$p-value_x = {{Number\,\ge T_x}\over{Sampling\,number\,of\,shuffle \cdot number of features}}$$

 

์˜ˆ๋ฅผ ๋“ค์–ด, $x_1$์™€ $x_2$ ๋‘ ๊ฐœ์˜ ๋ณ€์ˆ˜๊ฐ€ ์กด์žฌํ•  ๋•Œ, $x_1$์˜ $p-value$๋ฅผ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด์„œ $x_1$๋ฟ๋งŒ ์•„๋‹ˆ๋ผ $x_2$๋„ ๋‹ค ๊ฐ™์ด shuffle์„ ์‹œํ‚จ ํ›„ ์ง‘๋‹จ์— ๋”ฐ๋ฅธ ํ‰๊ท ์ฐจ์ด ๊ฐ’์„ ๊ตฌํ•˜๊ณ  $T_{x1}$๊ณผ ๋น„๊ตํ•  ๋•Œ $T_{x2}$๋กœ ๊ตฌํ•ด์ง„ $T_{x2}$์™€๋„ ๋น„๊ต๋ฅผ ํ•˜๋Š” ์ ์ด๋‹ค. 

 

๋งŒ์•ฝ $T_{x1}$ ๊ฐ’์ด ๋งค์šฐ ํฐ ๊ฐ’์ด๋ผ๊ณ  ํ–ˆ์„ ๋•Œ, $T_{x2}$๊ฐ’์ด ์ค‘์— $T_{x1}$๊ฐ’ ๋ณด๋‹ค ๋งค์šฐ ํฐ ๊ฐ’์ด ์žˆ๋‹ค๋ฉด ๊ทธ๊ฒƒ์€ ๊ฒฐ๊ตญ $x_2$๊ฐ€ $x_1$๋ณด๋‹ค๋Š” ์ค‘์š”ํ•˜๋‹ค๋Š” ๋œป์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋ž˜์„œ ๋‹ค๋ฅธ ๋ณ€์ˆ˜์™€์˜ ๋น„๊ต๋ฅผ ํ†ตํ•ด ๋‹ค๋ฅธ ๋ณ€์ˆ˜๋“ค์„ ๊ณ ๋ คํ•˜๊ฒŒ ๋˜๋Š” ๊ฒƒ์ด๋‹ค.

 

 

๋ฐ˜์‘ํ˜•