๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

Data Science/Machine Learning

[ML] Out Of Fold(OOF) ๋ฐฉ๋ฒ•์œผ๋กœ ๋ชจ๋ธ ํ‰๊ฐ€ํ•˜๊ธฐ

๋ฐ˜์‘ํ˜•

๐Ÿ”Š ํ•ด๋‹น ํฌ์ŠคํŒ…์€ ์ธํ”„๋Ÿฐ ๊ฐ•์˜์˜ ์บ๊ธ€ Advanced ๋จธ์‹ ๋Ÿฌ๋‹ ์‹ค์ „ ๋ฐ•์น˜๊ธฐ ๊ฐ•์˜ ๋‚ด์šฉ์„ ํ† ๋Œ€๋กœ ์žฌ๊ตฌ์„ฑํ•˜์˜€์Œ์„ ์•Œ๋ ค๋“œ๋ฆฝ๋‹ˆ๋‹ค. ํ•ด๋‹น ๊ฐ•์˜์— ๋Œ€ํ•ด ๋” ๊ถ๊ธˆํ•˜์‹œ๋‹ค๋ฉด ์—ฌ๊ธฐ๋ฅผ ํด๋ฆญํ•ด์ฃผ์„ธ์š”.

 

์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ์„œ OOF ๋ฐฉ๋ฒ•์ด๋ผ๊ณ  ์•Œ๋ ค์ ธ ์žˆ๋Š” Out Of Fold ๋ฐฉ์‹์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋ ค๊ณ  ํ•œ๋‹ค. OOF ๋ฐฉ์‹์€ ์‹ค๋ฌด๋ณด๋‹ค๋Š” Kaggle, Dacon๊ณผ ๊ฐ™์€ ์˜ˆ์ธก ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋Œ€ํšŒ์—์„œ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ์‹์ด๋ผ๊ณ  ํ•œ๋‹ค. ๊ทธ๋Ÿผ OOF ๋ฐฉ์‹์€ ์–ด๋–ป๊ฒŒ ๋™์ž‘ํ•˜๋Š” ๊ฑธ๊นŒ? 

 

Fold๋Š” 'ํด๋”(Folder)'์™€ ๊ฐ™์€ ๊ฐœ๋…์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ์ดํ•ด๊ฐ€ ์‰ฝ๋‹ค.

 

์šฐ์„  OOF ๋ฐฉ์‹์€ Fold๋ฅผ ์ด์šฉํ•œ๋‹ค. Fold๋ผ.. ์–ด๋””์—์„ ๊ฐ€ ๋งŽ์ด ๋“ค์–ด๋ดค์ง€ ์•Š์€๊ฐ€!? ๋ฐ์ดํ„ฐ์ˆ˜๊ฐ€ ์ ์„ ๋•Œ ๋ชจ๋ธ์˜ ์˜ค๋ฒ„ํ”ผํŒ… ๊ฐ€๋Šฅ์„ฑ์„ ์˜ˆ๋ฐฉํ•˜๊ธฐ ์œ„ํ•ด ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ๊ต์ฐจ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์ธ K-fold cross validation์—์„œ๋„ Fold๊ฐ€ ์‚ฌ์šฉ๋œ๋‹ค! ๊ทธ๋Ÿผ OOF์˜ Fold์™€ K-fold์˜ Fold๋Š” ์„œ๋กœ ๋‹ค๋ฅผ๊นŒ? ๊ฒฐ๋ก ๋ถ€ํ„ฐ ๋งํ•˜๋ฉด ๋น„์Šทํ•˜๋‹ค. ์—„๋ฐ€ํžˆ ๋งํ•˜๋ฉด, K-fold๋ฅผ ์ด์šฉํ•œ ๊ฒƒ์ด OOF๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ OOF์•ˆ์—๋Š” K-fold๊ฐ€ ์†ํ•œ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

๊ทธ๋ ‡๋‹ค๋ฉด ์ด์ œ OOF ๋ฐฉ์‹์ด ๋ชจ๋ธ์—์„œ ์–ด๋–ป๊ฒŒ ๋™์ž‘ํ•˜์—ฌ ๋ฏธ๋ž˜์˜ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š”์ง€ ๊ทธ๋ฆผ์„ ํ†ตํ•ด์„œ ์‚ดํŽด๋ณด์ž.

 

OOF ๋ฐฉ์‹์œผ๋กœ ์ตœ์ข… ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ๋ฒ•

 

์œ„ ๊ทธ๋ฆผ์˜ ์ขŒ์ธก์€ 4๊ฐœ์˜ Fold๋กœ ๊ต์ฐจ๊ฒ€์ฆํ•˜๋Š” K=4 ์ผ๋•Œ์˜ K-fold ๊ต์ฐจ๊ฒ€์ฆ ๋ฐฉ๋ฒ•์ด๋‹ค. ์ด๋ ‡๊ฒŒ ์ด 4๋ฒˆ์˜ ๊ต์ฐจ๊ฒ€์ฆ์œผ๋กœ (๋™์ผํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ) ์˜ˆ์ธก ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๊ฐ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ๋กœ ํ‰๊ฐ€ํ•œ Model 1~4๋ฅผ ๋งŒ๋“ค์–ด๋‚ธ๋‹ค.(์ด ๋•Œ, Model 1,2,3,4์—์„œ ๊ฐ๊ฐ ์ตœ์ ํ™”๋œ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐ’๋“ค์€ ๋‹ค๋ฅผ ๊ฒƒ์ด๋‹ค. ์™œ๋ƒํ•˜๋ฉด ๊ฐ ๋ชจ๋ธ์ด ํ•™์Šตํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ์„œ๋กœ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.)

 

๊ทธ๋ฆฌ๊ณ  ๋‚œ ํ›„, Model 1~4๋ฅผ ๋™์ผํ•œ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์˜ˆ์ธกํ•˜๋„๋ก ํ•˜์—ฌ ๊ฐ Model ๋ณ„ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์˜ˆ์ธก๊ฐ’์„ ๊ณ„์‚ฐํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ๋˜๋ฉด ์œ„ ๊ทธ๋ฆผ์—์„œ ๋…ธ๋ž€์ƒ‰ ๋ฐ•์Šค์˜ Model 1~4 ์˜ˆ์ธก๊ฐ’์ด ๋‚˜์˜ค๊ฒŒ ๋œ๋‹ค. 

 

๋งˆ์ง€๋ง‰์œผ๋กœ ํ•  ์ผ์€ ์ด 4๊ฐœ์˜ ์˜ˆ์ธก๊ฐ’๋“ค์˜ ํ‰๊ท ๊ฐ’์„ ์ทจํ•˜์—ฌ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ตœ์ข… ์˜ˆ์ธก๊ฐ’์„ ๊ณ„์‚ฐํ•œ๋‹ค. 

 

์ด๋ ‡๊ฒŒ OOF ๋ฐฉ๋ฒ•์œผ๋กœ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜๋‹ค. ์ƒ๊ฐ๋ณด๋‹ค ๊ฐ„๋‹จํ•˜๋‹ค. ํ•˜์ง€๋งŒ ๋ฌธ๋‘์—๋„ ์–ธ๊ธ‰ํ–ˆ๋‹ค์‹œํ”ผ OOF๋Š” Kaggle, Dacon ๊ณผ ๊ฐ™์€ "๋ˆ„๊ฐ€๋ˆ„๊ฐ€ ๋” ์ž˜ ์˜ˆ์ธกํ•˜๋‚˜"๋ฅผ ๋ชฉ์ ์œผ๋กœ ํ•˜๋Š” ์˜ˆ์ธก ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋Œ€ํšŒ์—์„œ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๋”ฐ๋ผ์„œ ์‹ค๋ฌด์—์„œ๋Š” ์ž˜ ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š”๋‹ค๊ณ  ํ•œ๋‹ค.(ํ˜น์—ฌ๋‚˜ ์‹ค๋ฌด์—๋„ ์ž์ฃผ ์‚ฌ์šฉ๋œ๋‹ค๋ฉด ๋Œ“๊ธ€ ๋‹ฌ์•„์ฃผ์„ธ์š”! ์•„์ง ์‹ค๋ฌด์ž๊ฐ€ ์•„๋‹ˆ๋ผ...ํ•˜ํ•˜..)

๋ฐ˜์‘ํ˜•