๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

Data Science/Machine Learning

[ML] Class imbalance ํ•ด๊ฒฐ์„ ์œ„ํ•œ ๋‹ค์–‘ํ•œ Sampling ๊ธฐ๋ฒ•

๋ฐ˜์‘ํ˜•

๐Ÿ”‰ํ•ด๋‹น ํฌ์ŠคํŒ…์—์„œ ์‚ฌ์šฉ๋œ ์ž๋ฃŒ๋Š” ๊ณ ๋ ค๋Œ€ํ•™๊ต ์‚ฐ์—…๊ฒฝ์˜๊ณตํ•™๋ถ€ ๊น€์„ฑ๋ฒ”๊ต์ˆ˜๋‹˜์˜ Youtube ๊ฐ•์˜์ž๋ฃŒ์— ๊ธฐ๋ฐ˜ํ–ˆ์Œ์„ ์•Œ๋ ค๋“œ๋ฆฝ๋‹ˆ๋‹ค. ํ˜น์—ฌ๋‚˜ ์ถœ์ฒ˜๋ฅผ ๋ฐํ˜”์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ €์ž‘๊ถŒ์˜ ๋ฌธ์ œ๊ฐ€ ๋œ๋‹ค๋ฉด joyh951021@gmail.com์œผ๋กœ ์—ฐ๋ฝ์ฃผ์‹œ๋ฉด ํ•ด๋‹น ์ž๋ฃŒ๋ฅผ ์‚ญ์ œํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

 

์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜•, ๋ช…ํ™•ํ•˜๊ฒŒ๋Š” ์ข…์†๋ณ€์ˆ˜์ธ ํด๋ž˜์Šค(๋ ˆ์ด๋ธ”) ๋ถˆ๊ท ํ˜•์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋ ค๊ณ  ํ•œ๋‹ค. ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜•์ด ๊ตฌ์ฒด์ ์œผ๋กœ ๋ฌด์—‡์ด๊ณ  ๋Œ€๋žต์ ์ธ ํ•ด๊ฒฐ๋ฐฉ์•ˆ์— ๋Œ€ํ•ด ์•Œ๊ณ  ์‹ถ๋‹ค๋ฉด ์—ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ•˜์ž.

 

ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜•์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํฌ๊ฒŒ ๋ฐ์ดํ„ฐ์—์„œ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•, ๋ชจ๋ธ๋ง ๊ณผ์ •์—์„œ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋น„์šฉ๊ธฐ๋ฐ˜ ํ•™์Šต(Cost-sensitive learning)๊ณผ ๋‹จ์ผ ํด๋ž˜์Šค ๋ถ„๋ฅ˜๊ธฐ๋ฒ•(Novelty Detection)์œผ๋กœ ๋‚˜๋‰œ๋‹ค. ํ•ด๋‹น ํฌ์ŠคํŒ…์—์„œ๋Š” ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์˜ ์ข…๋ฅ˜์— ์ดˆ์ ์„ ๋งž์ถ”์–ด ์„ค๋ช…ํ•  ๊ฒƒ์ด๋ฉฐ ๋ง๋ฏธ์— ๋น„์šฉ๊ธฐ๋ฐ˜ ํ•™์Šต๊ณผ ๋‹จ์ผ ํด๋ž˜์Šค ๋ถ„๋ฅ˜๊ธฐ๋ฒ•์— ๋Œ€ํ•œ ๊ฐ„๋‹จํ•œ ๊ฐœ๋…๋„ ์†Œ๊ฐœํ•  ์˜ˆ์ •์ด๋‹ค.

 

๋ฐ์ดํ„ฐ์—๋„ ๋ถˆ๊ท ํ˜•์ด ์กด์žฌํ•œ๋‹ค.

 

๋จผ์ € ์ƒ˜ํ”Œ๋ง ๊ธฐ๋ฒ•์—๋Š” ์–ธ๋”์ƒ˜ํ”Œ๋ง๊ณผ ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง์œผ๋กœ ๋‚˜๋‰œ๋‹ค. ๋‘ ๊ฐœ๋…์— ๋Œ€ํ•ด ๊ฐ„๋‹จํžˆ ์„ค๋ช…ํ•˜์ž๋ฉด, ์–ธ๋”์ƒ˜ํ”Œ๋ง์€ 'Under' ๊ทธ์•ผ๋ง๋กœ ์›๋ณธ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ•์†Œํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋ฐ˜๋ฉด์— ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง์€ 'Over'๋กœ ์›๋ณธ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ฆ์‹์‹œํ‚ค๋Š” ๊ฒƒ์ด๋‹ค.

 

๋จผ์ € ์–ธ๋”์ƒ˜ํ”Œ๋ง์˜ ์žฅ,๋‹จ์ ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ณ  ์ž์„ธํ•œ ์ข…๋ฅ˜๋ฅผ ์‚ดํŽด๋ณด์ž.

 

  • ์žฅ์ 
    • ๋‹ค์ˆ˜์˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ฑฐํ•˜๋ฏ€๋กœ ๊ณ„์‚ฐ์‹œ๊ฐ„์ด ๊ฐ์†Œํ•œ๋‹ค.
    • ํด๋ž˜์Šค ์˜ค๋ฒ„๋žฉ์„ ๊ฐ์†Œ์‹œํ‚จ๋‹ค.
  • ๋‹จ์ 
    • ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ฑฐํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ •๋ณด ์†์‹ค์ด ๋ฐœ์ƒํ•œ๋‹ค.

1-1. Random Undersampling

1-2. Tomek Links

1-3. CNN(Condensed Nearest Neighbor)

1-4. OSS(One-side Selection)

1-1. Random Undersampling

๋žœ๋ค ์–ธ๋”์ƒ˜ํ”Œ๋ง์€ ๋‹ค์ˆ˜์˜ ํด๋ž˜์Šค์— ์†ํ•ด์žˆ๋Š” ๊ด€์ธก์น˜๋“ค ์ค‘ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ ์ˆ˜ํ–‰ํ•  ๋•Œ๋งˆ๋‹ค ๋‹ค๋ฅธ ๊ฒฐ๊ณผ๊ฐ€ ๋„์ถœ๋œ๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ์ƒ˜ํ”Œ๋ง ๋งˆ๋‹ค ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ๋‹ฌ๋ผ์ง€๊ธด ํ•˜์ง€๋งŒ ์˜์™ธ๋กœ ๊ดœ์ฐฎ๊ฒŒ ์‚ฌ์šฉ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค.

1-2. Tomek Links

์šฐ์„  ํ† ๋ฉ•๋งํฌ๊ฐ€ ๋ฌด์—‡์ธ์ง€๋ถ€ํ„ฐ ์ดํ•ดํ•ด๋ณด์ž. ๋‹ค์Œ ๊ทธ๋ฆผ์„ ๋ณด์ž.

 

๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์กด์žฌํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž.

 

์œ„ ๊ทธ๋ฆผ์—์„œ ์ดˆ๋ก์ƒ‰์œผ๋กœ ๋™๊ทธ๋ผ๋ฏธ ์นœ ๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ดํŽด๋ณด์ž. ์šฐ์„  ์„œ๋กœ ๋‹ค๋ฅธ ํด๋ž˜์Šค์˜ ๋ฐ์ดํ„ฐ ๋‘ ์ ์„ ์—ฐ๊ฒฐ์„ ํ•œ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์ด ๋‘ ๋ฐ์ดํ„ฐ ์ฃผ๋ณ€์— ๋‹ค๋ฅธ ์ž„์˜์˜ ๋ฐ์ดํ„ฐ k๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•˜์ž. ์ด ๋•Œ ๋‘ ์ ์„ ์—ฐ๊ฒฐํ•œ ๋ฐ์ดํ„ฐ ๋ชจ๋‘ ๋ฐ์ดํ„ฐ k์™€ ๊ฐ๊ฐ ์—ฐ๊ฒฐํ–ˆ์„ ๋•Œ์˜ ๊ฑฐ๋ฆฌ๊ฐ€ ๋‘ ์ (์ดˆ๋ก์ƒ‰ ๋™๊ทธ๋ผ๋ฏธ ๋‚ด๋ถ€์˜ ๋‘ ์ )์„ ์—ฐ๊ฒฐํ•œ ๊ฑฐ๋ฆฌ๋ณด๋‹ค ๊ธธ๋‹ค๋ฉด ์ด ๋•Œ ์ด ๋‘ ์ ๊ฐ„์˜ ๋งํฌ๋ฅผ ํ† ๋ฉ•๋งํฌ๋ผ๊ณ  ํ•œ๋‹ค.

 

์ด๋ ‡๊ฒŒ ํ† ๋ฉ•๋งํฌ์— ํ•ด๋‹นํ•˜๋Š” ์ดˆ๋ก์ƒ‰ ๋™๊ทธ๋ผ๋ฏธ๋“ค์„ ๋ชจ๋‘ ์ƒ‰์ถœํ•ด๋‚ด๊ณ  ์ด ๋ฐ์ดํ„ฐ ์Œ๋“ค ์ค‘ ๋‹ค์ˆ˜์˜ ํด๋ž˜์Šค์— ์†ํ•ด์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์‚ญ์ œํ•œ๋‹ค. ์ฆ‰, ์œ„ ์˜ˆ์‹œ ๊ทธ๋ฆผ์—์„œ๋Š” ์ดˆ๋ก์ƒ‰ ๋™๊ทธ๋ผ๋ฏธ ์•ˆ์—์„œ ํŒŒ๋ž€์ƒ‰ ๋ฐ์ดํ„ฐ๋“ค์„ ๋ชจ๋‘ ์‚ญ์ œํ•ด์ฃผ์–ด ์–ธ๋”์ƒ˜ํ”Œ๋ง์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

1-3. CNN(Condensed Nearest Neighbor)

CNN ๋ฐฉ๋ฒ•์€ ์†Œ์ˆ˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ „์ฒด, 'A' ๊ณผ ๋‹ค์ˆ˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๋ฐ์ดํ„ฐ๋“ค ์ค‘ ๋ฌด์ž‘์œ„๋กœ ํ•˜๋‚˜ ์„ ํƒํ•œ ๋ฐ์ดํ„ฐ ํ•˜๋‚˜, 'B', ๊ทธ๋ž˜์„œ 'A' + 'B' ์œผ๋กœ ๊ตฌ์„ฑ๋œ Sub-๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์„ฑํ•œ๋‹ค. 

 

๊ทธ๋ฆฌ๊ณ  ์œ„ ์ƒํƒœ์—์„œ ๋‹ค์ˆ˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๋‚˜๋จธ์ง€ ๋ฐ์ดํ„ฐ๋“ค(๋ฌด์ž‘์œ„๋กœ ์„ ํƒํ•œ ๋ฐ์ดํ„ฐ 1๊ฐœ ์ œ์™ธ) ์ค‘ ํ•˜๋‚˜์”ฉ KNN์—์„œ K=1์ธ, 1 - Nearest Neighbors๋ฅผ ์ด์šฉํ•ด ๊ทธ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฌด์ž‘์œ„๋กœ ์„ ํƒํ•œ ๋‹ค์ˆ˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ ํ•œ ๊ฐœ์™€ ๊ฐ€๊นŒ์šด์ง€, ์•„๋‹ˆ๋ฉด ์†Œ์ˆ˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ ์ค‘ ์–ด๋–ค ๊ฒƒ์ด๋ผ๋„ ๊ทธ๊ฒƒ๊ณผ ๊ฐ€๊นŒ์šด์ง€๋ฅผ ์‚ดํŽด๋ณธ๋‹ค. 

 

๊ทธ๋ฆฌ๊ณ  ๋‹ค์ˆ˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๋‚˜๋จธ์ง€ ๋ฐ์ดํ„ฐ๋“ค ์ค‘ ์†Œ์ˆ˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ์™€ ๋” ๊ฐ€๊นŒ์šด ๋ฐ์ดํ„ฐ๋“ค์€ ์†Œ์ˆ˜ ํด๋ž˜์Šค๋กœ ์šฐ์„  ๋ถ„๋ฅ˜์‹œํ‚จ๋‹ค. ์ดํ›„ 1 - Nearest Neighbors๋ฅผ ํ†ตํ•ด ์ •์ƒ์ ์œผ๋กœ ๋ถ„๋ฅ˜๋œ ๋‹ค์ˆ˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ๋“ค์„ ์–ธ๋” ์ƒ˜ํ”Œ๋ง์„ ํ•ด ์ค€๋‹ค. ์ด ๋•Œ ํ•œ ๊ฐ€์ง€ ์ฃผ์˜ํ•ด์•ผ ํ•  ์ ์ด ์žˆ๋‹ค. K-NN์„ ์ ์šฉ์‹œ์— K๊ฐ’์€ ๋ฐ˜๋“œ์‹œ 1์ด์–ด์•ผ ํ•œ๋‹ค. K๊ฐ€ 1์ด ์•ˆ๋˜๋Š” ์ด์œ ๋Š” ๊ฐ•์˜ ์† CNN ์„ค๋ช…์— ๋“ค์–ด์žˆ์œผ๋‹ˆ ๊ผญ ์‹œ์ฒญํ•ด๋ณด๊ธธ ๊ถŒํ•œ๋‹ค. 

 

์ด์— ๋Œ€ํ•ด ์ดํ•ด๊ฐ€ ์ž˜ ๊ฐ€์ง€ ์•Š๋Š”๋‹ค๋ฉด ๊น€์„ฑ๋ฒ” ๊ต์ˆ˜๋‹˜ ๊ฐ•์˜์˜ 13๋ถ„ 50์ดˆ๋ถ€ํ„ฐ ์ฐธ๊ณ ํ•ด๋ณด์ž.

1-4. OSS(One-side Selection)

OSS ๋ฐฉ๋ฒ•์€ Tomek links ์™€ CNN์„ ๊ฐ™์ด ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์ด๋ผ๊ณ  ๋ณด๋ฉด ๋œ๋‹ค. ์ฆ‰, Tomek links๋กœ ๋ถ„๋ฅ˜ ๊ฒฝ๊ณ„์— ์กด์žฌํ•˜๋Š” ๋ฐ์ดํ„ฐ๋“ค์„ ์–ธ๋”์ƒ˜ํ”Œ๋ง ํ•˜๋Š” ๋™์‹œ์— CNN์œผ๋กœ ๋ถ„๋ฅ˜๊ฐ€ ๋„ˆ๋ฌด๋‚˜๋„ ์ž˜ ๋˜๋Š” ๋ฐ์ดํ„ฐ๋“ค์„ ์–ธ๋”์ƒ˜ํ”Œ๋งํ•  ์ˆ˜ ์žˆ๋‹ค.


๋‹ค์Œ์€ ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง์ด๋‹ค. ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง์˜ ์žฅ, ๋‹จ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

  • ์žฅ์ 
    • ๋ฐ์ดํ„ฐ ์ •๋ณด ์†์‹ค์ด ์—†๋‹ค.
    • ์–ธ๋”์ƒ˜ํ”Œ๋ง์— ๋น„ํ•ด ๋†’์€ ๋ถ„๋ฅ˜ ์ •ํ™•๋„๋ฅผ ๋ณด์ธ๋‹ค.
  • ๋‹จ์ 
    • ๊ณผ์ ํ•ฉ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.
    • ๋ฐ์ดํ„ฐ ์ฆ๊ฐ€๋กœ ์ธํ•ด ๊ณ„์‚ฐ์‹œ๊ฐ„์ด ์ฆ๊ฐ€ํ•œ๋‹ค.
    • ๋…ธ์ด์ฆˆ ๋˜๋Š” ์ด์ƒ์น˜์— ๋ฏผ๊ฐํ•œ ํŽธ์ด๋‹ค.

์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง์˜ ์ข…๋ฅ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

2-1. Resampling

2-2. SMOTE

2-3. Borderline - SMOTE

2-4. ADASYN

2-1. Resampling

์†Œ์ˆ˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๋ฐ์ดํ„ฐ์˜ ๊ด€์ธก์น˜๋ฅผ ๋ณต์‚ฌ(copy)ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ฆ์‹์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ธฐ์กด์˜ ๋ฐ์ดํ„ฐ์™€ ๋™์ผํ•œ ๋ณต์ œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์‚ฐํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์†Œ์ˆ˜ ํด๋ž˜์Šค์— ๊ณผ์ ํ•ฉ ๋ฐœ์ƒ ๊ฐ€๋Šฅ์„ฑ์ด ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ณด๋‹ค ์ƒ๋Œ€์ ์œผ๋กœ ๋†’๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. ๊ทธ๋ž˜๋„ ์‹ค์ œ ์ ์šฉ ์‹œ ์˜์™ธ๋กœ ์ž˜ ๋™์ž‘ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค.

2-2. SMOTE

SMOTE ๋ฐฉ์‹์€ ์˜ˆ์ „์—๋„ ํฌ์ŠคํŒ…ํ–ˆ์—ˆ๋˜ ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง ๋ฐฉ๋ฒ•์ด๋‹ค. ์†Œ์ˆ˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ฃผ๋ณ€์— ์›๋ณธ ๋ฐ์ดํ„ฐ์™€ ๋™์ผํ•˜์ง€ ์•Š์œผ๋ฉด์„œ ์†Œ์ˆ˜ ํด๋ž˜์Šค์— ํ•ด๋‹นํ•˜๋Š” ๊ฐ€์ƒ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

 

๊ฐ„๋‹จํ•œ ํ”„๋กœ์„ธ์Šค์— ๋Œ€ํ•ด์„œ ์„ค๋ช…ํ•˜์ž๋ฉด, K๊ฐ’์„ ์‚ฌ์ „์— ์ •ํ•œ ํ›„, ์ž„์˜์˜ ๋ฐ์ดํ„ฐ ํ•˜๋‚˜๋ฅผ ์„ ์ •ํ•˜๊ณ  ์ด ๋ฐ์ดํ„ฐ์™€ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์ƒ์œ„ K๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์ค‘ ํ•˜๋‚˜๋ฅผ ๋žœ๋ค์œผ๋กœ ์„ ์ •ํ•ด Synthetic ๊ณต์‹์„ ํ†ตํ•ด ๊ฐ€์ƒ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ„์‚ฐํ•˜๊ฒŒ ๋œ๋‹ค. Synthetic ๊ณต์‹์„ ์ด์šฉํ•ด ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ํ•ด๋‹น ๊ฐ•์˜๋ฅผ ์ฐธ๊ณ ํ•˜์ž. ๋ฐฉ๊ธˆ๊นŒ์ง€ ํ•œ ๊ณผ์ •์„ ์†Œ์ˆ˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๋ชจ๋“  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๋ฐ˜๋ณต ์ˆ˜ํ–‰ํ•˜๋ฉฐ ๊ฐ€์ƒ๊ด€์ธก์น˜๋“ค์„ ์ƒ์„ฑํ•œ๋‹ค.

 

์ด ๋•Œ, ์‚ฌ์ „์— ์ •์˜ํ•˜๋Š” K๊ฐ’์€ 1๋กœ ํ•ด์„  ์•ˆ ๋˜๋ฉฐ ๋ฐ˜๋“œ์‹œ K๊ฐ’์€ 2 ์ด์ƒ์˜ ์ •์ˆ˜๊ฐ’์ด์–ด์•ผ ํ•œ๋‹ค. K๊ฐ€ 1๋กœ ์„ค์ •ํ•˜๊ฒŒ ๋˜๋ฉด ์„ ์ •ํ•œ ์ž„์˜์˜ ๋ฐ์ดํ„ฐ ํ•˜๋‚˜๋ฅผ ์„ ์ •ํ•œ ๋’ค ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ๋ฅผ ๋•Œ ์„ ํƒ์ง€๊ฐ€ 1๊ฐœ๋ฐ–์— ์—†๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ž์„ธํ•œ ๋‚ด์šฉ์€ ๊ฐ•์˜ ๋‚ด์šฉ์„ ์ฐธ๊ณ ํ•˜์ž.

 

SMOTE ์ƒ˜ํ”Œ๋ง ๋ฐฉ์‹

2-3. Borderline - SMOTE

๋‹ค์Œ์€ SMOTE ๋ฐฉ์‹์ธ๋ฐ ๋‘ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ๊ฐ„์˜ ๊ฒฝ๊ณ„์„  ๋ถ€๋ถ„์—๋งŒ SMOTE๋ฅผ ์ ์šฉํ•œ๋‹ค.

 

์šฐ์„ ์€ ๋ณด๋”๋ผ์ธ์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ์†Œ์ˆ˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๋ฐ์ดํ„ฐ ํ•˜๋‚˜๋ฅผ ์„ ์ •ํ•ด N๊ฐœ ์ฃผ๋ณ€์„ ํƒ์ƒ‰ํ•œ ํ›„ ์ด N๊ฐœ ๋ฐ์ดํ„ฐ ์ค‘ ๋‹ค์ˆ˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๋ช‡๊ฐœ์ธ์ง€ ํ™•์ธํ•œ๋‹ค. ์ด ๋•Œ ๋‹ค์ˆ˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๊ฐœ์ˆ˜ K์— ๋”ฐ๋ผ ๋ณด๋”๋ผ์ธ ์ธ์ง€ ์—ฌ๋ถ€๋ฅผ ๊ฒฐ์ •ํ•˜๋ฉฐ ๊ทธ ๋ฐ์ดํ„ฐ๊ฐ€ Safe ๊ด€์ธก์น˜์ธ์ง€, Danger ๊ด€์ธก์น˜์ธ์ง€, Noise ๊ด€์ธก์น˜์ธ์ง€ ๊ฒฐ์ •ํ•œ๋‹ค.

 

์ด ๋•Œ ๋ณด๋”๋ผ์ธ ์—ฌ๋ถ€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” '๋‹ค์ˆ˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ๊ฐœ์ˆ˜ K'๋Š” ์–ด๋–ป๊ฒŒ ๊ฒฐ์ •ํ• ๊นŒ? ์ด์— ๋Œ€ํ•ด์„œ ํ•ด๋‹น ๊ฐ•์˜์—์„œ๋Š” ํŠน์ • ๋…ผ๋ฌธ์—์„œ ์ฃผ์žฅํ•˜๋Š” K ๊ณ„์‚ฐ ๊ณต์‹์„ ์†Œ๊ฐœํ•œ๋‹ค. ๊ณต์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

k๋Š” ์†Œ์ˆ˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ ์ฃผ๋ณ€์˜ ๋ฐ์ดํ„ฐ ๊ฐœ์ˆ˜(์œ„ ์˜ˆ์‹œ์—์„œ ๋ฏธ์ง€์ˆ˜ N์— ํ•ด๋‹น), k'๋Š” k ์†Œ์ˆ˜ ํด๋ž˜์Šค ์ฃผ๋ณ€์˜ ๋‹ค์ˆ˜ ํด๋ž˜์Šค ์ˆ˜ ๋ผ๊ณ  ๊ฐ€์ •ํ•  ๋•Œ,

 

  1. k = k' : Noise ๊ด€์ธก์น˜
  2. k/2 < k' < k : Danger ๊ด€์ธก์น˜
  3. 0 =< k' =< k/2 : Safe ๊ด€์ธก์น˜

์œ„ ๊ณต์‹์œผ๋กœ ์–ด๋–ค ์ข…๋ฅ˜์˜ ๊ด€์ธก์น˜์ธ์ง€ ๊ฒฐ์ •ํ•œ ํ›„ ๋ณดํ†ต Danger ๊ด€์ธก์น˜์— ๋Œ€ํ•ด์„œ๋งŒ SMOTE๋ฅผ ์ ์šฉํ•˜์—ฌ ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

 

Borderline-SMOTE ์˜ˆ์‹œ

2-4. ADASYN

Adaptive Synthetic Sampling Approach๋กœ, Borderline-SMOTE์™€ ๋น„์Šทํ•œ ๋ฐฉ์‹์ด์ง€๋งŒ ์ƒ˜ํ”Œ๋ง ๊ฐœ์ˆ˜๋ฅผ ๋ฐ์ดํ„ฐ ์œ„์น˜์— ๋”ฐ๋ผ ๋‹ค๋ฅด๊ฒŒ ์„ค์ •ํ•œ๋‹ค๋Š” ๊ฒƒ์ด ์ฐจ์ด์ ์ด๋‹ค. ADASYN์˜ ๋™์ž‘ ํ”„๋กœ์„ธ์Šค๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

๋จผ์ € ๋ชจ๋“  ์†Œ์ˆ˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ์— ๊ฐ๊ฐ์— ๋Œ€ํ•ด ์ฃผ๋ณ€ ๋ฐ์ดํ„ฐ K๊ฐœ์ˆ˜๋งŒํผ ํƒ์ƒ‰ํ•˜๊ณ  ๊ทธ ์ค‘ ๋‹ค์ˆ˜ ํด๋ž˜์Šค ๊ด€์ธก์น˜์˜ ๋น„์œจ์„ ๊ณ„์‚ฐํ•œ๋‹ค. ์ด๋ฅผ Ri๊ฐ’์ด๋ผ๊ณ  ๊ฐ€์ •ํ•˜์ž.(i๋Š” ๋ฐ์ดํ„ฐ ๊ฐœ์ˆ˜๋กœ 1๋ถ€ํ„ฐ K๊นŒ์ง€ ๋ฒ”์œ„์— ์†ํ•œ๋‹ค.) 

 

์ด ๊ฐ๊ฐ์˜ ์†Œ์ˆ˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๊ณ„์‚ฐํ•œ Ri๊ฐ’์„ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ณต์‹์œผ๋กœ ์Šค์ผ€์ผ๋ง ํ•˜์ž.

 

Ri ๋ฅผ ์Šค์ผ€์ผ๋ง ํ•˜๋Š” ๊ณต์‹

 

์œ„ ๊ณต์‹์„ ํ†ตํ•ด ์Šค์ผ€์ผ๋งํ•œ Ri๊ฐ’๋“ค ๊ฐ๊ฐ์— G๊ฐ’(๋‹ค์ˆ˜ ํด๋ž˜์Šค ๊ฐœ์ˆ˜ - ์†Œ์ˆ˜ ํด๋ž˜์Šค ๊ฐœ์ˆ˜)์„ ๊ณฑํ•ด์ฃผ๊ณ  ๋ฐ˜์˜ฌ๋ฆผ์„ ํ•˜๊ฒŒ ๋œ๋‹ค. ์ด๋ ‡๊ฒŒ ๋˜๋ฉด ์ •์ˆ˜๊ฐ’์ด ๋„์ถœ๋œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ์ •์ˆ˜๊ฐ’๋งŒํผ ๊ฐ ๋ฐ์ดํ„ฐ์—์„œ SMOTE ๋ฐฉ์‹์„ ์ด์šฉํ•ด ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง์„ ํ•ด์ค€๋‹ค.

 

ADASYN ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง ์˜ˆ์‹œ

 

์ด๋ ‡๊ฒŒ ๋ฐ์ดํ„ฐ ์œ„์น˜์— ๋”ฐ๋ผ SMOTE๋ฅผ ์ด์šฉํ•˜๋Š” ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง ๋ฐฉ์‹์ธ ADASYN์€ ์†Œ์ˆ˜ ํด๋ž˜์Šค ์ฃผ๋ณ€์˜ ๋‹ค์ˆ˜ ํด๋ž˜์Šค ์ˆ˜์— ๋”ฐ๋ผ ์œ ๋™์ ์œผ๋กœ ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง ํ•  ๋ฐ์ดํ„ฐ ๊ฐœ์ˆ˜๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ๋”ฐ๋ผ์„œ Borderline-SMOTE์˜ ๋ณด๋”๋ผ์ธ์— ์ง‘์ค‘ํ•œ๋‹ค๋Š” ์ ๊ณผ ๋™์‹œ์— ๋‹ค์ˆ˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ ์ฃผ๋ณ€์— ์กด์žฌํ•˜๋Š” ์†Œ์ˆ˜ ํด๋ž˜์Šค์— ์ง‘์ค‘ํ•œ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค.

 

๋ณดํ†ต ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋„๋ฅผ ๊ทธ๋ ธ์„ ๋•Œ ๋‹ค์ˆ˜ ํด๋ž˜์Šค๊ฐ€ ์—ฌ๋Ÿฌ ๋ถ€๋ถ„์— ๋ถ„ํฌ๋˜์–ด ์žˆ์„ ๋•Œ(์ด๋ฅผ ๋ฉ€ํ‹ฐ ๋ชจ๋ธ์ด๋ผ๊ณ ๋„ ํ•œ๋‹ค), ADASYN์ด ์ž˜ ๋™์ž‘ํ•œ๋‹ค๊ณ  ์•Œ๋ ค์ ธ ์žˆ๋‹ค.


์ง€๊ธˆ๊นŒ์ง€ ์–ธ๋”์ƒ˜ํ”Œ๋ง๊ณผ ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง์˜ ์žฅ, ๋‹จ์ ๊ณผ ์ข…๋ฅ˜์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜๋‹ค. ์ด์ œ ๋งˆ์ง€๋ง‰์œผ๋กœ ๋ถˆ๊ท ํ˜• ๋ฐ์ดํ„ฐ ๋ฌธ์ œ๋ฅผ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๊ณผ์ •์—์„œ๊ฐ€ ์•„๋‹Œ ๋ชจ๋ธ๋ง ๊ณผ์ •์—์„œ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋น„์šฉ ๊ธฐ๋ฐ˜ ํ•™์Šต, ๋‹จ์ผ ํด๋ž˜์Šค ๋ถ„๋ฅ˜๊ธฐ๋ฒ•์— ๋Œ€ํ•ด ๊ฐ„๋‹จํžˆ ์•Œ์•„๋ณด์ž.

# ๋น„์šฉ ๊ธฐ๋ฐ˜ ํ•™์Šต(Cost-Sensitive Learning)

์˜ˆ๋ฅผ ๋“ค์–ด, ๋‹ค์ˆ˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” 1000๊ฐœ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž. ์ด 1000๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์ค‘ ๋ถ„๋ฅ˜ ๊ฒฝ๊ณ„์„ ์œผ๋กœ๋ถ€ํ„ฐ ๊ฑฐ๋ฆฌ๊ฐ€ ๋ฉ€์–ด ์–ด๋–ค ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์™€๋„ ์ž˜ ๋ถ„๋ฅ˜ํ•˜๋Š” ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋Š” ๋ฐ˜๋ฉด, ํŠน์ •ํ•œ ๋ฐ์ดํ„ฐ๋Š” ๋ถ„๋ฅ˜ ๊ฒฝ๊ณ„์„ ์œผ๋กœ๋ถ€ํ„ฐ ๋งค์šฐ ๊ทผ์ ‘ํ•ด ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์™”์„ ๋•Œ ๋ถ„๋ฅ˜๊ฒฝ๊ณ„์„ ์ด ์กฐ๊ธˆ์ด๋ผ๋„ ์›€์ง์—ฌ ์˜ค๋ถ„๋ฅ˜๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ๊ฐ€ ์กด์žฌํ•  ๊ฒƒ์ด๋‹ค.

 

์ด ๋•Œ, ์˜ค๋ถ„๋ฅ˜ํ•  ๊ฐ€๋Šฅ์„ฑ ์ฆ‰, Cost๊ฐ’์— ๊ธฐ๋ฐ˜ํ•ด Cost๊ฐ’์ด ๋†’์€ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ์ผ์ˆ˜๋ก ๊ทธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ฐ์— ๋” ์ง‘์ค‘ํ•˜๋ฉด์„œ ํ•™์Šต์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด ๋น„์šฉ ๊ธฐ๋ฐ˜ ํ•™์Šต๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ธ Focal loss ๋Œ€ํ•ด ๊ฐ„๋‹จํžˆ ์„ค๋ช…ํ•ด๋†“์€ ๊ธฐ์กด์˜ ํฌ์ŠคํŒ…์ด ์กด์žฌํ•˜๋ฏ€๋กœ ์—ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ•ด๋ณด์ž.

# ๋‹จ์ผ ํด๋ž˜์Šค ๋ถ„๋ฅ˜๊ธฐ๋ฒ•(Novelty Detection)

๋‹จ์ผ ํด๋ž˜์Šค ๋ถ„๋ฅ˜๊ธฐ๋ฒ•์€ "๊ผญ ๋‘ ํด๋ž˜์Šค๋ฅผ ๋ชจ๋‘ ๊ณ ๋ คํ•ด์•ผ ํ•˜๋‚˜? ๋‹ค์ˆ˜ ํด๋ž˜์Šค๋งŒ ๊ณ ๋ คํ•˜์ž! ์†Œ์ˆ˜ ํด๋ž˜์Šค๋ฅผ ๋™์‹œ์— ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์ด ์˜คํžˆ๋ ค ์†ํ•ด๋ฅผ ์ฃผ์ง€ ์•Š์„๊นŒ?" ํ•˜๋Š” ์•„์ด๋””์–ด์—์„œ ๊ธฐ์›ํ–ˆ๋‹ค๊ณ  ํ•œ๋‹ค.

 

์šฐ์„ , ์†Œ์ˆ˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ์˜ ์กด์žฌ๋ฅผ ๋ฌด์‹œํ•œ ์ฑ„ ๋‹ค์ˆ˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ์„ค๋ช…ํ•˜๋Š” ๋ฐ”์šด๋”๋ฆฌ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ์ด ๋•Œ ๋ฐ”์šด๋”๋ฆฌ๋กœ ์›(Circle)์„ ์ƒ์„ฑํ•˜๊ธฐ๋„ ํ•˜๋ฉฐ, ์ค‘์‹ฌ์ ๊ณผ ๋ฐ˜์ง€๋ฆ„์„ ๊ตฌํ•ด ์› ๋ฐ”์šด๋”๋ฆฌ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์™”์„ ๋•Œ ์ƒ์„ฑํ•œ ๋ฐ”์šด๋”๋ฆฌ ์•ˆ์— ๋“ค์–ด๊ฐ€๋Š”์ง€ ์—ฌ๋ถ€์— ๋”ฐ๋ผ ๋ถ„๋ฅ˜ํ•˜๊ฒŒ ๋œ๋‹ค.

 

๊ฐœ์ธ์ ์ธ ์˜๊ฒฌ์ด์ง€๋งŒ ์†Œ์ˆ˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ์˜ ์กด์žฌ๋ฅผ ๋ฌด์‹œํ•œ๋‹ค๋Š” ์ ์—์„œ ๋‹จ์ผ ํด๋ž˜์Šค ๋ถ„๋ฅ˜๊ธฐ๋ฒ•์€ ์†Œ์ˆ˜์˜ ํด๋ž˜์Šค ๋ฐ์ดํ„ฐ๊ฐ€ ๋งค์šฐ ์ ์„ ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ ํ•ฉํ•  ๊ฒƒ ๊ฐ™๋‹ค๋Š” ๋Š๋‚Œ์ด ๋“ ๋‹ค.

 

๋ฐ˜์‘ํ˜•