๐ํด๋น ํฌ์คํ ์์ ์ฌ์ฉ๋ ์๋ฃ๋ ๊ณ ๋ ค๋ํ๊ต ์ฐ์ ๊ฒฝ์๊ณตํ๋ถ ๊น์ฑ๋ฒ๊ต์๋์ Youtube ๊ฐ์์๋ฃ์ ๊ธฐ๋ฐํ์์ ์๋ ค๋๋ฆฝ๋๋ค. ํน์ฌ๋ ์ถ์ฒ๋ฅผ ๋ฐํ์์๋ ๋ถ๊ตฌํ๊ณ ์ ์๊ถ์ ๋ฌธ์ ๊ฐ ๋๋ค๋ฉด joyh951021@gmail.com์ผ๋ก ์ฐ๋ฝ์ฃผ์๋ฉด ํด๋น ์๋ฃ๋ฅผ ์ญ์ ํ๊ฒ ์ต๋๋ค. ๊ฐ์ฌํฉ๋๋ค.
์ด๋ฒ ํฌ์คํ ์์๋ ๋ฐ์ดํฐ ๋ถ๊ท ํ, ๋ช ํํ๊ฒ๋ ์ข ์๋ณ์์ธ ํด๋์ค(๋ ์ด๋ธ) ๋ถ๊ท ํ์ ํด๊ฒฐํ๊ธฐ ์ํ ๋ค์ํ ์ํ๋ง ๊ธฐ๋ฒ์ ๋ํด ์์๋ณด๋ ค๊ณ ํ๋ค. ํด๋์ค ๋ถ๊ท ํ์ด ๊ตฌ์ฒด์ ์ผ๋ก ๋ฌด์์ด๊ณ ๋๋ต์ ์ธ ํด๊ฒฐ๋ฐฉ์์ ๋ํด ์๊ณ ์ถ๋ค๋ฉด ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ์.
ํด๋์ค ๋ถ๊ท ํ์ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ํฌ๊ฒ ๋ฐ์ดํฐ์์ ์ํํ ์ ์๋ ์ํ๋ง ๊ธฐ๋ฒ, ๋ชจ๋ธ๋ง ๊ณผ์ ์์ ์ํํ ์ ์๋ ๋น์ฉ๊ธฐ๋ฐ ํ์ต(Cost-sensitive learning)๊ณผ ๋จ์ผ ํด๋์ค ๋ถ๋ฅ๊ธฐ๋ฒ(Novelty Detection)์ผ๋ก ๋๋๋ค. ํด๋น ํฌ์คํ ์์๋ ์ํ๋ง ๊ธฐ๋ฒ์ ์ข ๋ฅ์ ์ด์ ์ ๋ง์ถ์ด ์ค๋ช ํ ๊ฒ์ด๋ฉฐ ๋ง๋ฏธ์ ๋น์ฉ๊ธฐ๋ฐ ํ์ต๊ณผ ๋จ์ผ ํด๋์ค ๋ถ๋ฅ๊ธฐ๋ฒ์ ๋ํ ๊ฐ๋จํ ๊ฐ๋ ๋ ์๊ฐํ ์์ ์ด๋ค.
๋จผ์ ์ํ๋ง ๊ธฐ๋ฒ์๋ ์ธ๋์ํ๋ง๊ณผ ์ค๋ฒ์ํ๋ง์ผ๋ก ๋๋๋ค. ๋ ๊ฐ๋ ์ ๋ํด ๊ฐ๋จํ ์ค๋ช ํ์๋ฉด, ์ธ๋์ํ๋ง์ 'Under' ๊ทธ์ผ๋ง๋ก ์๋ณธ์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ํ๋ ๊ฒ์ด๋ค. ๋ฐ๋ฉด์ ์ค๋ฒ์ํ๋ง์ 'Over'๋ก ์๋ณธ์ ๋ฐ์ดํฐ๋ฅผ ์ฆ์์ํค๋ ๊ฒ์ด๋ค.
๋จผ์ ์ธ๋์ํ๋ง์ ์ฅ,๋จ์ ์ ๋ํด ์์๋ณด๊ณ ์์ธํ ์ข ๋ฅ๋ฅผ ์ดํด๋ณด์.
- ์ฅ์
- ๋ค์์ ํด๋์ค ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๋ฏ๋ก ๊ณ์ฐ์๊ฐ์ด ๊ฐ์ํ๋ค.
- ํด๋์ค ์ค๋ฒ๋ฉ์ ๊ฐ์์ํจ๋ค.
- ๋จ์
- ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๊ธฐ ๋๋ฌธ์ ์ ๋ณด ์์ค์ด ๋ฐ์ํ๋ค.
1-1. Random Undersampling
1-2. Tomek Links
1-3. CNN(Condensed Nearest Neighbor)
1-4. OSS(One-side Selection)
1-1. Random Undersampling
๋๋ค ์ธ๋์ํ๋ง์ ๋ค์์ ํด๋์ค์ ์ํด์๋ ๊ด์ธก์น๋ค ์ค ๋ฌด์์๋ก ์ํ๋งํ๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ์ํํ ๋๋ง๋ค ๋ค๋ฅธ ๊ฒฐ๊ณผ๊ฐ ๋์ถ๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ํ๋ง ๋ง๋ค ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ฌ๋ผ์ง๊ธด ํ์ง๋ง ์์ธ๋ก ๊ด์ฐฎ๊ฒ ์ฌ์ฉ๋๋ ๊ฒฝ์ฐ๊ฐ ์๋ค๊ณ ํ๋ค.
1-2. Tomek Links
์ฐ์ ํ ๋ฉ๋งํฌ๊ฐ ๋ฌด์์ธ์ง๋ถํฐ ์ดํดํด๋ณด์. ๋ค์ ๊ทธ๋ฆผ์ ๋ณด์.
์ ๊ทธ๋ฆผ์์ ์ด๋ก์์ผ๋ก ๋๊ทธ๋ผ๋ฏธ ์น ๋ถ๋ถ์ ๋ฐ์ดํฐ๋ฅผ ์ดํด๋ณด์. ์ฐ์ ์๋ก ๋ค๋ฅธ ํด๋์ค์ ๋ฐ์ดํฐ ๋ ์ ์ ์ฐ๊ฒฐ์ ํ๋ค. ๊ทธ๋ฐ๋ฐ ์ด ๋ ๋ฐ์ดํฐ ์ฃผ๋ณ์ ๋ค๋ฅธ ์์์ ๋ฐ์ดํฐ k๊ฐ ์๋ค๊ณ ํ์. ์ด ๋ ๋ ์ ์ ์ฐ๊ฒฐํ ๋ฐ์ดํฐ ๋ชจ๋ ๋ฐ์ดํฐ k์ ๊ฐ๊ฐ ์ฐ๊ฒฐํ์ ๋์ ๊ฑฐ๋ฆฌ๊ฐ ๋ ์ (์ด๋ก์ ๋๊ทธ๋ผ๋ฏธ ๋ด๋ถ์ ๋ ์ )์ ์ฐ๊ฒฐํ ๊ฑฐ๋ฆฌ๋ณด๋ค ๊ธธ๋ค๋ฉด ์ด ๋ ์ด ๋ ์ ๊ฐ์ ๋งํฌ๋ฅผ ํ ๋ฉ๋งํฌ๋ผ๊ณ ํ๋ค.
์ด๋ ๊ฒ ํ ๋ฉ๋งํฌ์ ํด๋นํ๋ ์ด๋ก์ ๋๊ทธ๋ผ๋ฏธ๋ค์ ๋ชจ๋ ์์ถํด๋ด๊ณ ์ด ๋ฐ์ดํฐ ์๋ค ์ค ๋ค์์ ํด๋์ค์ ์ํด์๋ ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํ๋ค. ์ฆ, ์ ์์ ๊ทธ๋ฆผ์์๋ ์ด๋ก์ ๋๊ทธ๋ผ๋ฏธ ์์์ ํ๋์ ๋ฐ์ดํฐ๋ค์ ๋ชจ๋ ์ญ์ ํด์ฃผ์ด ์ธ๋์ํ๋ง์ ์ํํ๋ ๊ฒ์ด๋ค.
1-3. CNN(Condensed Nearest Neighbor)
CNN ๋ฐฉ๋ฒ์ ์์ ํด๋์ค์ ์ํ๋ ๋ฐ์ดํฐ ์ ์ฒด, 'A' ๊ณผ ๋ค์ ํด๋์ค์ ์ํ๋ ๋ฐ์ดํฐ๋ค ์ค ๋ฌด์์๋ก ํ๋ ์ ํํ ๋ฐ์ดํฐ ํ๋, 'B', ๊ทธ๋์ 'A' + 'B' ์ผ๋ก ๊ตฌ์ฑ๋ Sub-๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฑํ๋ค.
๊ทธ๋ฆฌ๊ณ ์ ์ํ์์ ๋ค์ ํด๋์ค์ ์ํ๋ ๋๋จธ์ง ๋ฐ์ดํฐ๋ค(๋ฌด์์๋ก ์ ํํ ๋ฐ์ดํฐ 1๊ฐ ์ ์ธ) ์ค ํ๋์ฉ KNN์์ K=1์ธ, 1 - Nearest Neighbors๋ฅผ ์ด์ฉํด ๊ทธ ๋ฐ์ดํฐ๊ฐ ๋ฌด์์๋ก ์ ํํ ๋ค์ ํด๋์ค ๋ฐ์ดํฐ ํ ๊ฐ์ ๊ฐ๊น์ด์ง, ์๋๋ฉด ์์ ํด๋์ค ๋ฐ์ดํฐ ์ค ์ด๋ค ๊ฒ์ด๋ผ๋ ๊ทธ๊ฒ๊ณผ ๊ฐ๊น์ด์ง๋ฅผ ์ดํด๋ณธ๋ค.
๊ทธ๋ฆฌ๊ณ ๋ค์ ํด๋์ค์ ์ํ๋ ๋๋จธ์ง ๋ฐ์ดํฐ๋ค ์ค ์์ ํด๋์ค ๋ฐ์ดํฐ์ ๋ ๊ฐ๊น์ด ๋ฐ์ดํฐ๋ค์ ์์ ํด๋์ค๋ก ์ฐ์ ๋ถ๋ฅ์ํจ๋ค. ์ดํ 1 - Nearest Neighbors๋ฅผ ํตํด ์ ์์ ์ผ๋ก ๋ถ๋ฅ๋ ๋ค์ ํด๋์ค ๋ฐ์ดํฐ๋ค์ ์ธ๋ ์ํ๋ง์ ํด ์ค๋ค. ์ด ๋ ํ ๊ฐ์ง ์ฃผ์ํด์ผ ํ ์ ์ด ์๋ค. K-NN์ ์ ์ฉ์์ K๊ฐ์ ๋ฐ๋์ 1์ด์ด์ผ ํ๋ค. K๊ฐ 1์ด ์๋๋ ์ด์ ๋ ๊ฐ์ ์ CNN ์ค๋ช ์ ๋ค์ด์์ผ๋ ๊ผญ ์์ฒญํด๋ณด๊ธธ ๊ถํ๋ค.
์ด์ ๋ํด ์ดํด๊ฐ ์ ๊ฐ์ง ์๋๋ค๋ฉด ๊น์ฑ๋ฒ ๊ต์๋ ๊ฐ์์ 13๋ถ 50์ด๋ถํฐ ์ฐธ๊ณ ํด๋ณด์.
1-4. OSS(One-side Selection)
OSS ๋ฐฉ๋ฒ์ Tomek links ์ CNN์ ๊ฐ์ด ์ํํ๋ ๋ฐฉ์์ด๋ผ๊ณ ๋ณด๋ฉด ๋๋ค. ์ฆ, Tomek links๋ก ๋ถ๋ฅ ๊ฒฝ๊ณ์ ์กด์ฌํ๋ ๋ฐ์ดํฐ๋ค์ ์ธ๋์ํ๋ง ํ๋ ๋์์ CNN์ผ๋ก ๋ถ๋ฅ๊ฐ ๋๋ฌด๋๋ ์ ๋๋ ๋ฐ์ดํฐ๋ค์ ์ธ๋์ํ๋งํ ์ ์๋ค.
๋ค์์ ์ค๋ฒ์ํ๋ง์ด๋ค. ์ค๋ฒ์ํ๋ง์ ์ฅ, ๋จ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ฅ์
- ๋ฐ์ดํฐ ์ ๋ณด ์์ค์ด ์๋ค.
- ์ธ๋์ํ๋ง์ ๋นํด ๋์ ๋ถ๋ฅ ์ ํ๋๋ฅผ ๋ณด์ธ๋ค.
- ๋จ์
- ๊ณผ์ ํฉ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
- ๋ฐ์ดํฐ ์ฆ๊ฐ๋ก ์ธํด ๊ณ์ฐ์๊ฐ์ด ์ฆ๊ฐํ๋ค.
- ๋ ธ์ด์ฆ ๋๋ ์ด์์น์ ๋ฏผ๊ฐํ ํธ์ด๋ค.
์ค๋ฒ์ํ๋ง์ ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ๋ค.
2-1. Resampling
2-2. SMOTE
2-3. Borderline - SMOTE
2-4. ADASYN
2-1. Resampling
์์ ํด๋์ค์ ์ํ๋ ๋ฐ์ดํฐ์ ๊ด์ธก์น๋ฅผ ๋ณต์ฌ(copy)ํ๋ ๋ฐฉ์์ผ๋ก ์ฆ์์ํค๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ธฐ์กด์ ๋ฐ์ดํฐ์ ๋์ผํ ๋ณต์ ๋ฐ์ดํฐ๋ฅผ ์์ฐํ๋ ๊ฒ์ด๋ค. ์ด ๋ฐฉ๋ฒ์ ์์ ํด๋์ค์ ๊ณผ์ ํฉ ๋ฐ์ ๊ฐ๋ฅ์ฑ์ด ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ณด๋ค ์๋์ ์ผ๋ก ๋๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค. ๊ทธ๋๋ ์ค์ ์ ์ฉ ์ ์์ธ๋ก ์ ๋์ํ๋ ๊ฒฝ์ฐ๊ฐ ์๋ค๊ณ ํ๋ค.
2-2. SMOTE
SMOTE ๋ฐฉ์์ ์์ ์๋ ํฌ์คํ ํ์๋ ์ค๋ฒ์ํ๋ง ๋ฐฉ๋ฒ์ด๋ค. ์์ ํด๋์ค์ ์ํ๋ ๋ฐ์ดํฐ ์ฃผ๋ณ์ ์๋ณธ ๋ฐ์ดํฐ์ ๋์ผํ์ง ์์ผ๋ฉด์ ์์ ํด๋์ค์ ํด๋นํ๋ ๊ฐ์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ค.
๊ฐ๋จํ ํ๋ก์ธ์ค์ ๋ํด์ ์ค๋ช ํ์๋ฉด, K๊ฐ์ ์ฌ์ ์ ์ ํ ํ, ์์์ ๋ฐ์ดํฐ ํ๋๋ฅผ ์ ์ ํ๊ณ ์ด ๋ฐ์ดํฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์์ K๊ฐ์ ๋ฐ์ดํฐ ์ค ํ๋๋ฅผ ๋๋ค์ผ๋ก ์ ์ ํด Synthetic ๊ณต์์ ํตํด ๊ฐ์์ ๋ฐ์ดํฐ๋ฅผ ๊ณ์ฐํ๊ฒ ๋๋ค. Synthetic ๊ณต์์ ์ด์ฉํด ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ํด๋น ๊ฐ์๋ฅผ ์ฐธ๊ณ ํ์. ๋ฐฉ๊ธ๊น์ง ํ ๊ณผ์ ์ ์์ ํด๋์ค์ ์ํ๋ ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ํด ๋ฐ๋ณต ์ํํ๋ฉฐ ๊ฐ์๊ด์ธก์น๋ค์ ์์ฑํ๋ค.
์ด ๋, ์ฌ์ ์ ์ ์ํ๋ K๊ฐ์ 1๋ก ํด์ ์ ๋๋ฉฐ ๋ฐ๋์ K๊ฐ์ 2 ์ด์์ ์ ์๊ฐ์ด์ด์ผ ํ๋ค. K๊ฐ 1๋ก ์ค์ ํ๊ฒ ๋๋ฉด ์ ์ ํ ์์์ ๋ฐ์ดํฐ ํ๋๋ฅผ ์ ์ ํ ๋ค ๋ค๋ฅธ ๋ฐ์ดํฐ๋ฅผ ๊ณ ๋ฅผ ๋ ์ ํ์ง๊ฐ 1๊ฐ๋ฐ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์์ธํ ๋ด์ฉ์ ๊ฐ์ ๋ด์ฉ์ ์ฐธ๊ณ ํ์.
2-3. Borderline - SMOTE
๋ค์์ SMOTE ๋ฐฉ์์ธ๋ฐ ๋ ํด๋์ค ๋ฐ์ดํฐ๊ฐ์ ๊ฒฝ๊ณ์ ๋ถ๋ถ์๋ง SMOTE๋ฅผ ์ ์ฉํ๋ค.
์ฐ์ ์ ๋ณด๋๋ผ์ธ์ ์ฐพ์์ผ ํ๋ค. ์์ ํด๋์ค์ ์ํ๋ ๋ฐ์ดํฐ ํ๋๋ฅผ ์ ์ ํด N๊ฐ ์ฃผ๋ณ์ ํ์ํ ํ ์ด N๊ฐ ๋ฐ์ดํฐ ์ค ๋ค์ ํด๋์ค์ ์ํ๋ ๋ฐ์ดํฐ๊ฐ ๋ช๊ฐ์ธ์ง ํ์ธํ๋ค. ์ด ๋ ๋ค์ ํด๋์ค์ ์ํ๋ ๊ฐ์ K์ ๋ฐ๋ผ ๋ณด๋๋ผ์ธ ์ธ์ง ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ๋ฉฐ ๊ทธ ๋ฐ์ดํฐ๊ฐ Safe ๊ด์ธก์น์ธ์ง, Danger ๊ด์ธก์น์ธ์ง, Noise ๊ด์ธก์น์ธ์ง ๊ฒฐ์ ํ๋ค.
์ด ๋ ๋ณด๋๋ผ์ธ ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ๋ '๋ค์ ํด๋์ค์ ์ํ๋ ๊ฐ์ K'๋ ์ด๋ป๊ฒ ๊ฒฐ์ ํ ๊น? ์ด์ ๋ํด์ ํด๋น ๊ฐ์์์๋ ํน์ ๋ ผ๋ฌธ์์ ์ฃผ์ฅํ๋ K ๊ณ์ฐ ๊ณต์์ ์๊ฐํ๋ค. ๊ณต์์ ๋ค์๊ณผ ๊ฐ๋ค.
k๋ ์์ ํด๋์ค ๋ฐ์ดํฐ ์ฃผ๋ณ์ ๋ฐ์ดํฐ ๊ฐ์(์ ์์์์ ๋ฏธ์ง์ N์ ํด๋น), k'๋ k ์์ ํด๋์ค ์ฃผ๋ณ์ ๋ค์ ํด๋์ค ์ ๋ผ๊ณ ๊ฐ์ ํ ๋,
- k = k' : Noise ๊ด์ธก์น
- k/2 < k' < k : Danger ๊ด์ธก์น
- 0 =< k' =< k/2 : Safe ๊ด์ธก์น
์ ๊ณต์์ผ๋ก ์ด๋ค ์ข ๋ฅ์ ๊ด์ธก์น์ธ์ง ๊ฒฐ์ ํ ํ ๋ณดํต Danger ๊ด์ธก์น์ ๋ํด์๋ง SMOTE๋ฅผ ์ ์ฉํ์ฌ ์ค๋ฒ์ํ๋ง์ ์ํํ๋ค.
2-4. ADASYN
Adaptive Synthetic Sampling Approach๋ก, Borderline-SMOTE์ ๋น์ทํ ๋ฐฉ์์ด์ง๋ง ์ํ๋ง ๊ฐ์๋ฅผ ๋ฐ์ดํฐ ์์น์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ์ค์ ํ๋ค๋ ๊ฒ์ด ์ฐจ์ด์ ์ด๋ค. ADASYN์ ๋์ ํ๋ก์ธ์ค๋ ๋ค์๊ณผ ๊ฐ๋ค.
๋จผ์ ๋ชจ๋ ์์ ํด๋์ค ๋ฐ์ดํฐ์ ๊ฐ๊ฐ์ ๋ํด ์ฃผ๋ณ ๋ฐ์ดํฐ K๊ฐ์๋งํผ ํ์ํ๊ณ ๊ทธ ์ค ๋ค์ ํด๋์ค ๊ด์ธก์น์ ๋น์จ์ ๊ณ์ฐํ๋ค. ์ด๋ฅผ Ri๊ฐ์ด๋ผ๊ณ ๊ฐ์ ํ์.(i๋ ๋ฐ์ดํฐ ๊ฐ์๋ก 1๋ถํฐ K๊น์ง ๋ฒ์์ ์ํ๋ค.)
์ด ๊ฐ๊ฐ์ ์์ ํด๋์ค ๋ฐ์ดํฐ์ ๋ํด ๊ณ์ฐํ Ri๊ฐ์ ๋ค์๊ณผ ๊ฐ์ ๊ณต์์ผ๋ก ์ค์ผ์ผ๋ง ํ์.
์ ๊ณต์์ ํตํด ์ค์ผ์ผ๋งํ Ri๊ฐ๋ค ๊ฐ๊ฐ์ G๊ฐ(๋ค์ ํด๋์ค ๊ฐ์ - ์์ ํด๋์ค ๊ฐ์)์ ๊ณฑํด์ฃผ๊ณ ๋ฐ์ฌ๋ฆผ์ ํ๊ฒ ๋๋ค. ์ด๋ ๊ฒ ๋๋ฉด ์ ์๊ฐ์ด ๋์ถ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ์ ์๊ฐ๋งํผ ๊ฐ ๋ฐ์ดํฐ์์ SMOTE ๋ฐฉ์์ ์ด์ฉํด ์ค๋ฒ์ํ๋ง์ ํด์ค๋ค.
์ด๋ ๊ฒ ๋ฐ์ดํฐ ์์น์ ๋ฐ๋ผ SMOTE๋ฅผ ์ด์ฉํ๋ ์ค๋ฒ์ํ๋ง ๋ฐฉ์์ธ ADASYN์ ์์ ํด๋์ค ์ฃผ๋ณ์ ๋ค์ ํด๋์ค ์์ ๋ฐ๋ผ ์ ๋์ ์ผ๋ก ์ค๋ฒ์ํ๋ง ํ ๋ฐ์ดํฐ ๊ฐ์๋ฅผ ์์ฑํ๋ค. ๋ฐ๋ผ์ Borderline-SMOTE์ ๋ณด๋๋ผ์ธ์ ์ง์คํ๋ค๋ ์ ๊ณผ ๋์์ ๋ค์ ํด๋์ค ๋ฐ์ดํฐ ์ฃผ๋ณ์ ์กด์ฌํ๋ ์์ ํด๋์ค์ ์ง์คํ๋ค๋ ์ฅ์ ์ด ์๋ค.
๋ณดํต ๋ฐ์ดํฐ์ ๋ถํฌ๋๋ฅผ ๊ทธ๋ ธ์ ๋ ๋ค์ ํด๋์ค๊ฐ ์ฌ๋ฌ ๋ถ๋ถ์ ๋ถํฌ๋์ด ์์ ๋(์ด๋ฅผ ๋ฉํฐ ๋ชจ๋ธ์ด๋ผ๊ณ ๋ ํ๋ค), ADASYN์ด ์ ๋์ํ๋ค๊ณ ์๋ ค์ ธ ์๋ค.
์ง๊ธ๊น์ง ์ธ๋์ํ๋ง๊ณผ ์ค๋ฒ์ํ๋ง์ ์ฅ, ๋จ์ ๊ณผ ์ข ๋ฅ์ ๋ํด ์์๋ณด์๋ค. ์ด์ ๋ง์ง๋ง์ผ๋ก ๋ถ๊ท ํ ๋ฐ์ดํฐ ๋ฌธ์ ๋ฅผ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๊ณผ์ ์์๊ฐ ์๋ ๋ชจ๋ธ๋ง ๊ณผ์ ์์ ์ํํ ์ ์๋ ๋น์ฉ ๊ธฐ๋ฐ ํ์ต, ๋จ์ผ ํด๋์ค ๋ถ๋ฅ๊ธฐ๋ฒ์ ๋ํด ๊ฐ๋จํ ์์๋ณด์.
# ๋น์ฉ ๊ธฐ๋ฐ ํ์ต(Cost-Sensitive Learning)
์๋ฅผ ๋ค์ด, ๋ค์ ํด๋์ค์ ์ํ๋ 1000๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์๋ค๊ณ ๊ฐ์ ํ์. ์ด 1000๊ฐ์ ๋ฐ์ดํฐ ์ค ๋ถ๋ฅ ๊ฒฝ๊ณ์ ์ผ๋ก๋ถํฐ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ์ด ์ด๋ค ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ค์ด์๋ ์ ๋ถ๋ฅํ๋ ํด๋์ค ๋ฐ์ดํฐ๊ฐ ์๋ ๋ฐ๋ฉด, ํน์ ํ ๋ฐ์ดํฐ๋ ๋ถ๋ฅ ๊ฒฝ๊ณ์ ์ผ๋ก๋ถํฐ ๋งค์ฐ ๊ทผ์ ํด ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์ ๋ ๋ถ๋ฅ๊ฒฝ๊ณ์ ์ด ์กฐ๊ธ์ด๋ผ๋ ์์ง์ฌ ์ค๋ถ๋ฅ๋ ๊ฐ๋ฅ์ฑ์ด ๋์ ํด๋์ค ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ ๊ฒ์ด๋ค.
์ด ๋, ์ค๋ถ๋ฅํ ๊ฐ๋ฅ์ฑ ์ฆ, Cost๊ฐ์ ๊ธฐ๋ฐํด Cost๊ฐ์ด ๋์ ํด๋์ค ๋ฐ์ดํฐ์ผ์๋ก ๊ทธ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๋ ๋ฐ์ ๋ ์ง์คํ๋ฉด์ ํ์ต์ ํ๋ ๊ฒ์ด๋ค. ์ด ๋น์ฉ ๊ธฐ๋ฐ ํ์ต๋ฐฉ๋ฒ ์ค ํ๋์ธ Focal loss ๋ํด ๊ฐ๋จํ ์ค๋ช ํด๋์ ๊ธฐ์กด์ ํฌ์คํ ์ด ์กด์ฌํ๋ฏ๋ก ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํด๋ณด์.
# ๋จ์ผ ํด๋์ค ๋ถ๋ฅ๊ธฐ๋ฒ(Novelty Detection)
๋จ์ผ ํด๋์ค ๋ถ๋ฅ๊ธฐ๋ฒ์ "๊ผญ ๋ ํด๋์ค๋ฅผ ๋ชจ๋ ๊ณ ๋ คํด์ผ ํ๋? ๋ค์ ํด๋์ค๋ง ๊ณ ๋ คํ์! ์์ ํด๋์ค๋ฅผ ๋์์ ๊ณ ๋ คํ๋ ๊ฒ์ด ์คํ๋ ค ์ํด๋ฅผ ์ฃผ์ง ์์๊น?" ํ๋ ์์ด๋์ด์์ ๊ธฐ์ํ๋ค๊ณ ํ๋ค.
์ฐ์ , ์์ ํด๋์ค ๋ฐ์ดํฐ์ ์กด์ฌ๋ฅผ ๋ฌด์ํ ์ฑ ๋ค์ ํด๋์ค ๋ฐ์ดํฐ๋ฅผ ์ ์ค๋ช ํ๋ ๋ฐ์ด๋๋ฆฌ๋ฅผ ์์ฑํ๋ค. ์ด ๋ ๋ฐ์ด๋๋ฆฌ๋ก ์(Circle)์ ์์ฑํ๊ธฐ๋ ํ๋ฉฐ, ์ค์ฌ์ ๊ณผ ๋ฐ์ง๋ฆ์ ๊ตฌํด ์ ๋ฐ์ด๋๋ฆฌ๋ฅผ ์์ฑํ๋ค. ๊ทธ๋ฆฌ๊ณ ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ค์ด์์ ๋ ์์ฑํ ๋ฐ์ด๋๋ฆฌ ์์ ๋ค์ด๊ฐ๋์ง ์ฌ๋ถ์ ๋ฐ๋ผ ๋ถ๋ฅํ๊ฒ ๋๋ค.
๊ฐ์ธ์ ์ธ ์๊ฒฌ์ด์ง๋ง ์์ ํด๋์ค ๋ฐ์ดํฐ์ ์กด์ฌ๋ฅผ ๋ฌด์ํ๋ค๋ ์ ์์ ๋จ์ผ ํด๋์ค ๋ถ๋ฅ๊ธฐ๋ฒ์ ์์์ ํด๋์ค ๋ฐ์ดํฐ๊ฐ ๋งค์ฐ ์ ์ ๋ ์ฌ์ฉํ๋ ๊ฒ์ด ์ ํฉํ ๊ฒ ๊ฐ๋ค๋ ๋๋์ด ๋ ๋ค.
'Data Science > Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] How to improve Deep Neural Network? (2) | 2020.10.24 |
---|---|
[ML] Recurrent Neural Network(RNN) (0) | 2020.10.16 |
[ML] How to correlate one or two categorical variables? (0) | 2020.09.15 |
[ML] Multivariate regression(๋ค๋ณ๋ ํ๊ท๋ถ์) ํ๋ก์ธ์ค (0) | 2020.09.08 |
[ML] Mean Shift, DBSCAN, and Silhouette metric (0) | 2020.08.14 |