๐ ํด๋น ํฌ์คํ ์์ ์ฌ์ฉ๋ ์ปจํ ์ธ ๋ ์ธํ๋ฐ์ ๋ฅ๋ฌ๋ ์ปดํจํฐ ๋น์ ์๋ฒฝ ๊ฐ์ด๋ ๊ฐ์ ๋ด์ฉ์ ๊ธฐ๋ฐ์ผ๋ก ํ์์ ์๋ฆฝ๋๋ค. ์ค๋ช ์์ ์ฌ์ฉ๋ ์๋ฃ๋ ์ต๋ํ ์ ๊ฐ ์ง์ ์ฌ๊ตฌ์ฑํ ์๋ฃ์์ ์๋ฆฝ๋๋ค.
์ต๊ทผ์ ์ธํ๋ฐ์์ ๊ถ์ฒ ๋ฏผ ๋์ '๋ฅ๋ฌ๋ ์ปดํจํฐ ๋น์ ์๋ฒฝ ๊ฐ์ด๋'๋ผ๋ ๊ฐ์๋ฅผ ๋ฃ๊ธฐ ์์ํ๋ค. ํด๋น ๊ฐ์๋ ์ปดํจํฐ ๋น์ (Computer Vision)์ Object Detecion ๊ณผ Segmentation ๋ด์ฉ์ ํฌ์ปค์ค๋ฅผ ๋ง์ถ๊ณ ์๋ค. ์๋ ๊ด์ฌ ๋ถ์ผ๊ฐ ์ปดํจํฐ ๋น์ ์ ์๋๋ค. ๊ทธ๋ฌ๋ ๋จธ์ ๋ฌ๋ ๋ถ์ผ๋ฅผ ๊ณต๋ถํ๊ฒ ๋๋ฉด ๋๊ตฌ๋ ๋ฅ๋ฌ๋์ ๋ง์ฃผํ๊ฒ ๋๊ณ ๋ฅ๋ฌ๋์ ์กฐ๊ธ ๋ค์ฌ๋ค ๋ณด๋ฉด ์ปดํจํฐ ๋น์ ์ ์ ๋ง ์ ์ฌ์ฉ๋๊ณ ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ํ์ฌ ์ ์ ์์ฉํ๋๊ณ ์๋ ์์จ ์ฃผํ๋ ์ด ์ปดํจํฐ ๋น์ ์ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ง ๊ธฐ๋ฅ์ด๋ค.
๋ฌผ๋ก ํ์ฌ ์ปดํจํฐ ๋น์ ๋ถ์ผ๋ฅผ ๊น๊ฒ ํ์ ์ด ์ชฝ์ผ๋ก ๋ฐ๋ก ์ทจ์ ํ๊ณ ์ถ์ ์๊ฐ์ ์๋์ง๋ง ํ์๊ฐ ๋์ค์ ์ด๋์ ์ผํ๊ฒ ๋ ์ง ๋ชจ๋ฅด๊ณ ๋ ์ผํ๊ฒ ๋์ ์ปดํจํฐ ๋น์ ๊ณผ ๊ด๋ จ๋ ์ ๋ฌด๋ฅผ ๋งก์์ง๋ ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์ ์ง๊ธ์ ํฅ๋ฏธ๋ฅผ ๋์ฐ๊ณ ๊ธฐ์ด ๊ฐ๋ ์ ์๊ณ ์ ๊ณต๋ถํ๋ ค๊ณ ํ๋ค.
Object Detecion๊ณผ Segmentation์ ๋ฐฐ์ฐ๊ธฐ ์ CNN(Convolutional Neural Network)์ ๋ํด ์๊ณ ์์ด์ผ ํ๋๋ฐ, ๋ง์ฝ ์ด๋ฅผ ๋ชจ๋ฅธ๋ค๋ฉด ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํด ๋ฐฐ์ฐ๊ณ ์ค๋๋ก ํ์.
์ด๋ฒ ํฌ์คํ ์์๋ Object Detection ๋๋ Segmentation๋ฅผ ์ํํ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ํ ๋ด์ฉ๋ณด๋ค๋ ๊ธฐ๋ณธ ๊ฐ๋ ์ ๋ํด ๋ค๋ฃจ๋ ค๊ณ ํ๋ค. ์ด ๊ฐ๋ ๋ค์ ์ตํ์ผ ์ถํ์ ์๊ฐ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ๋ํด ์ดํด๊ฐ ์์ํ ๊ฒ์ด๋ค. ์์ผ๋ก ์๊ฐํ ๋ชฉ์ฐจ๋ ๋ค์๊ณผ ๊ฐ๋ค.
1. Localization? Detection? Segmentation?
2. ๋ถ๋ฅ ๋ฌธ์ ? ํ๊ท ๋ฌธ์ ?
3. Region Proposal
4. Object Detection ์ํคํ ์ฒ
5. Detection ์ฑ๋ฅ ํ๊ฐ Metrics
1. Localization? Detection? Segmentation?
์ฐ์ Object ๋ผ๋ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ๋ฐฉ๋ฒ์ผ๋ก๋ ํฌ๊ฒ 3๊ฐ์ง๊ฐ ์กด์ฌํ๋ค. ๋ฐ๋ก Localization, Detection, Segmentation์ด๋ค. ์ด๋ค์ ์ฐจ์ด์ ์ ์ดํดํ๊ธฐ ์ํด ๋ค์ ์ฌ์ง์ ์ดํด๋ณด์.
์ ๊ทธ๋ฆผ์ ๊ฐ์ฅ ์ผ์ชฝ๋ถํฐ ํ๋์ฉ ์ดํด๋ณด์.
- Classification : ํน์ ์ด๋ฏธ์ง๊ฐ ์ด๋ค ๊ฐ์ฒด์ธ์ง, ์๋ฅผ ๋ค๋ฉด ๊ณ ์์ด์ธ์ง ๊ฐ์์ง์ธ์ง, ์ฌ๋์ธ์ง, ์๋์ฐจ์ธ์ง ๋ฑ ๊ฐ์ฒด์ ํด๋์ค๋ง์ ๋ถ๋ฅํ๋ค. ์ด ๋ ์ฃผ๋ก CNN ๋ชจ๋ธ๋ง์ ์ฌ์ฉํ๋ค.
- Classification + Localization : Localization์ด๋, ๋จ 1๊ฐ์ ๊ฐ์ฒด ์์น๋ฅผ ๋ฐ์ด๋ฉ ๋ฐ์ค(Bounding Box)๋ก ์ง์ ํด ์ฐพ๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ ๊ทธ๋ฆผ์ฒ๋ผ ๊ณ ์์ด ์ฃผ๋ณ์ ์ฌ๊ฐํ์ผ๋ก ๋ฐ์ค๊ฐ ์์์ ธ ์๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
- Object Detection : ์ฌ๋ฌ๊ฐ์ ๊ฐ์ฒด๋ค์ ๋ํ ์์น๋ฅผ ์ฌ๋ฌ๊ฐ์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ก ์ง์ ํด์ ์ฐพ๋๋ค. ์ด ๋ ๋์์ ์ฌ๋ฌ๊ฐ์ ๊ฐ์ฒด๋ค์ด ๋ฌด์์ ์๋ฏธํ๋์ง ํด๋์ค ๋ถ๋ฅ๋ ์ํํ๋ค.
- Segmentation : Pixel-level๋ก Object Detection์ ํ๋ ๊ฒ์ ์๋ฏธํ๋ค. ๊ทธ๋ฆผ์์ Object Detection์ผ ๋์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ๋น๊ตํด๋ณด๋ฉด ์๊ฐ์ ์ผ๋ก ์ฐจ์ด์ ์ด ๋ฌด์์ธ์ง ํ์ฐํ ์ ์ ์๋ค.
2. ๋ถ๋ฅ ๋ฌธ์ ? ํ๊ท ๋ฌธ์ ?
(์์ผ๋ก Localization, Object Detection, Segmentation ๋ชจ๋ ๊ทธ๋ฅ ๊ฐ์ฒด ํ์ง๋ผ๊ณ ๋ถ๋ฅด๊ฒ ์ต๋๋ค!)
๊ทธ๋ ๋ค๋ฉด ๊ฐ์ฒด ํ์ง ๋ฐฉ๋ฒ์ ๋จธ์ ๋ฌ๋์์ ์ด๋ค ๋ฌธ์ ์ผ๊น? ์ด๋ค ๋ฌธ์ ๋ผ ํจ์ ํด๋์ค๋ฅผ '๋ถ๋ฅ'ํ๋ ๋ฌธ์ ์ธ์ง, ์๋๋ฉด ์ค์๊ฐ์ ์์ธกํ๋ 'ํ๊ท' ๋ฌธ์ ์ธ์ง๋ฅผ ๋งํ๋ค. ๊ฐ์ฒด ํ์ง๋ '๋ถ๋ฅ + ํ๊ท' ๋ฌธ์ ๋ผ๊ณ ํ ์ ์๋ค. 1๋ฒ ๋ชฉ์ฐจ์์๋ ์ ์ ์ธ๊ธํ์ง๋ง ๊ฐ์ฒด์ ํด๋์ค๋ฅผ '๋ถ๋ฅ' ํ๊ณ ๋์์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์ฐพ๋ 'ํ๊ท' ๋ฌธ์ ๋ฅผ ํจ๊ป ์ํํ๋ค.
3. Region Proposal
Region Proposal์ ์ฝ๊ฒ ๋งํด์ ๊ฐ์ฒด๊ฐ ์์ ๋งํ ์์ญ๋ค์ ํ๋ณด๊ตฐ๋ค์ ์ฌ๋ฌ๊ฐ ์ถ์ถํด์ฃผ๋ ๊ฒ์ ์๋ฏธํ๋ค. ๋๋ถ๋ถ์ ์ด๋ฏธ์ง๋ค์ ๋ชจ๋ ํฝ์ ๋ค์ด ๊ฐ์ฒด๋ฅผ ์ค๋ช ํ๊ณ ์์ง ์๋ค. ์ฆ, ์ด๋ค ๋ถ๋ถ๋ค์ ๋ฐฐ๊ฒฝ ํฝ์ ๋ค์ด ์๊ณ , ์ด๋ค ๋ถ๋ถ์ ๊ฐ์ฒด๋ฅผ ๋ํ๋ด๋ ํฝ์ ๋ค์ด ์๋ค. ๊ทธ๋ฐ๋ฐ ๊ฐ์ฒด๋ฅผ ํ์งํ๊ธฐ ์ํด์ ๋ฐฐ๊ฒฝ์ ํฝ์ ๋ค์ ์ฌ์ค์ ํ์๊ฐ ์๋ค. ๋ฐ๋ผ์ ๊ฐ์ฒด๋ค์ ๋ํ๋ด๋ ํฝ์ ๋ค๋ง์ ์ฐพ๊ณ ํ์งํ๊ธฐ ์ํด Region Proposal์ด ๊ฐ์ฒด๊ฐ '์์ ๋ฒํ' ํฝ์ ์ ์์ญ๋ค์ ๋๊ฑฐ ์ถ์ถํด ์ถ์ฒํด์ฃผ๋ ๋ฐฉ์์ด๋ผ๊ณ ๋ณผ ์ ์๋ค.
Region Proposal์๋ ํฌ๊ฒ 2๊ฐ์ง ๋ฐฉ๋ฒ์ด ์กด์ฌํ๋ค. ๋จผ์ Sliding Window์ ๋ํด์ ์์๋ณด์.
3-1. Sliding Window
์ฌ๋ผ์ด๋ฉ ์๋์ฐ๋ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ๊ต์ฐจ ๊ฒ์ฆํ ๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๊ณ ๊ณ์ ๋ถ๋ค๋ ์์ ๊ฒ์ด๋ค. ํ์ง๋ง Region Proposal์๋ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๊ธฐ๋ฒ์ด ์๋๋ฐ ์ ์ฉ ๋ถ์ผ์๋ง ๋ค๋ฅผ ๋ฟ์ด์ง ๊ทผ๋ณธ์ ์ผ๋ก ์ํํ๋ ๋ฐฉ๋ฒ์ ๋น์ทํ๋ค. ์ฐ์ ๊ทธ๋ฆผ์ ๋ณด์.
์์ ๊ฐ์ด ํน์ ํ ๋ชจ์์ ์๋์ฐ๋ฅผ ์ด๋ฏธ์ง ์ผ์ชฝ ์๋จ์์ ์ค๋ฅธ์ชฝ ํ๋จ์ผ๋ก ์ ์ง์ ์ผ๋ก ์ด๋ํ๋ฉด์ ๊ฐ์ฒด๊ฐ ์์ ๋งํ Region๋ค์ Proposal(์ ์)ํด์ฃผ๋ ๊ฒ์ด๋ค. ๋ฌผ๋ก ํน์ ํ ๋ชจ์์ผ๋ก ์๋์ฐ๋ง์ ์ด์ฉํ ์ ์์ง๋ง ์์ฉํ์ฌ ๊ฐ๊ธฐ ๋ค๋ฅธ ๋ชจ์์ ์๋์ฐ๋ฅผ ๊ฐ๊ฐ ์ฌ๋ผ์ด๋ฉํ๊ฑฐ๋ ์๋๋ฉด ์๋์ฐ ํฌ๊ธฐ๋ฅผ ๊ณ ์ ํ๋ ํ์งํ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ๋ค์ํ๊ฒ ์ค์ผ์ผ๋งํด์ Region Proposal์ ์ํํ๊ธฐ๋ ํ๋ค.
ํ์ง๋ง ์ฌ๋ผ์ด๋ฉ ์๋์ฐ๋ ์น๋ช ์ ์ธ ๋จ์ ์ด ์๋ค. ๋ฐ๋ก ๊ฐ์ฒด๊ฐ ์๋ ์ง์ญ๋ ์ฌ๋ผ์ด๋ฉ์ ๋ฌด์กฐ๊ฑด ํ๊ธฐ ๋๋ฌธ์ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ๋ฅผ ํ๋ ๋ฐ ์๊ฐ์ด ๋ง์ด ๊ฑธ๋ฆด ๋ฟ๋๋ฌ ๊ฐ์ฒด๋ฅผ ์ ํ์งํ ํ๋ฅ ๋ ๋ฎ์์ง๊ฒ ๋๋ค. ์ ์ฌ์ง์์ ๊ฒ์ ์ ๋ฐฐ๊ฒฝ๋ค๋ ์ฌ๋ผ์ด๋ฉ ํ๋ ๊ฒ์ฒ๋ผ ๋ง์ด๋ค.
3-2. Selective Search
์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๊ธฐ๋ฒ์ ํ๊ณ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด ์ ์๋ ๋ฐฉ๋ฒ์ด Selective Search ๋ฐฉ๋ฒ์ด๋ค. Selective Search๋, ์ผ์ข ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ด๋ฏธ์ง ํฝ์ ์ ์ปฌ๋ฌ, ๋ฌด๋ฌ, ํฌ๊ธฐ, ํํ์ ๋ฐ๋ผ ์ ์ฌํ Region์ ๊ณ์ธต์ ๊ทธ๋ฃนํ ๋ฐฉ๋ฒ์ผ๋ก ๊ณ์ฐํ๋ ๋ฐฉ์์ด๋ค. ์ฆ, ๊ฐ์ฒด๊ฐ ๋ค์ด์์ ๋งํ ์ฌ๋ฌ๊ฐ์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ๋ง๋ค๊ณ ๋ฐ๋ณต์ ์ผ๋ก Selective Search ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํด ์ต์ ์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์ ์ ํด Region Proposal์ ํด์ฃผ๋ ๊ฒ์ด๋ค. ๋ค์ ๊ทธ๋ฆผ์ ๋ณด์.
์ ๊ทธ๋ฆผ์ ๊ฐ์ฅ ์ผ์ชฝ์ธ ์ธํ ์ด๋ฏธ์ง๋ฅผ Selective Search ์ํํ๋ฉด ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์ฒ๋ผ ๊ตฌ๋ถ์ด ๊ฐ์ฒด๊ฐ ์๋ ๊ตฌ์ญ์ ๊ธฐ์ค์ผ๋ก ์ ๋ถํ ๋๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ๋ฐฉ๊ธ๋ ์ธ๊ธํ๋ค์ํผ Selective Search๋ ์ด๊ธฐ์ ํฝ์ ๊ฐ๋ณ๋ก Segmentation๋ ๋ถ๋ถ์ ์ ์ฌ๋์ ๋ฐ๋ผ Segmentation ๊ทธ๋ฃนํ์ ๊ณ์ ๋ฐ๋ณตํ๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ Selective Search๋ ์ ๊ทธ๋ฆผ์์ 'After more iterations'์ ํด๋นํ๋ ๋ถ๋ถ์ Region Proposal ํด์ฃผ๊ฒ ๋๋ค.
4. Object Detection ์ํคํ ์ฒ
์ด์ ์ค๊ฐ ์ ๊ฒ(?)์ผ๋ก ์ง๊ธ๊น์ง ๋ฐฐ์ด ๊ฐ๋ ์ ์ฌ์ฉํด Object Detection์ด ์ด๋ค ์ํคํ ์ฒ์ ํ๋ก์ธ์ค๋ก ์ ๊ฐ๋๋์ง ๊ทธ๋ฆผ์ผ๋ก ์ดํด๋ณด์.
์ถํ ๊ฒ์ํ ํฌ์คํ ์์ ์๊ฐํ๊ฒ ์ง๋ง 3๋ฒ ๋ชฉ์ฐจ์์ ๋ฐฐ์ด Region Proposal์ Object Detection Network(e.g RCNN, Fast RCNN, SSP ๋ฑ)์์ Feature Map๊ณผ ์ ์ ํ ๋งคํ์ ์ด๋ฃจ๊ฒ ๋๋ค.(์ด๋ฅผ ROI = Regions Of Interest, ๊ด์ฌ๋ง ์๋ ์์ญ ์ด๋ผ๊ณ ๋ ํ๋ค.)
5. Detection ์ฑ๋ฅ ํ๊ฐ Metrics
4๋ฒ ๋ชฉ์ฐจ๊น์ง ํด์ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ด ์ด๋ค ์์ผ๋ก ๊ตฌ์ฑ๋๋์ง ๋๋ต ์๊ฒ๋์๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด๋ ๊ฒ ๋ง๋ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ ๊ฐ์ฒด๋ฅผ ํ์งํ๋์ง ํ์ง ์ฑ๋ฅ์ ํ๋จํ๋ ์ฒ๋๋ ๋ฌด์์ผ๋ก ํ ๊น?
5-1. IoU(Intersection Over Union)
๊ณ ๋ฑํ๊ต ์์ , ์งํฉ ๋จ์์์ ๊ต์งํฉ, ํฉ์งํฉ์ ๋ํด ๋ฐฐ์ ์ ๊ฒ์ด๋ค. IoU๋ ๊ทธ ๊ฐ๋ ๋ค์ ๋์ ํ ๊ฒ์ด๋ค. ์ฆ, ์ค์ ๊ฐ์ฒด๊ฐ ์๋ ๋ฐ์ด๋ฉ ๋ฐ์ค(Ground Truth)์ ๋ชจ๋ธ์ด ์์ธกํ ๋ฐ์ด๋ฉ ๋ฐ์ค(Predicted)๊ฐ ํฌํจํ๊ณ ์๋ ์์ญ์ ๊ณ์ฐํ ์ ์๋ค. ๋ค์ ๊ทธ๋ฆผ์ ๋ณด์.
์ฃผ์ํด์ผ ํ ์ ์ Area of Union ๊ฐ์ ๊ตฌํ ๋ Ground Truth ๋ฐ์ด๋ฉ ๋ฐ์ค์ Predicted ๋ฐ์ด๋ฉ ๋ฐ์ค ๋์ด ๋๊ฐ๋ฅผ ๋ํด์ฃผ๊ณ Area of Overlap ๋ถ๋ถ์ 1๋ฒ ๋นผ์ฃผ์ด์ผ ํ๋ค.(์ฌ๋ด์ด์ง๋ง ์ด๋ฌํ ์ค์๋ฅผ ๊ณ ๋ฑํ๊ต ์์ ๋ช ๋ฒ ํ๋ ๊ฒฝํ์ด ์ด๋ ดํ์ด ๋๋ค..๐จ)
IoU๊ฐ์ ๋น์จ์ด๊ธฐ ๋๋ฌธ์ 0๊ณผ 1์ฌ์ด์ ๊ฐ์ผ๋ก ๋์ค๊ฒ ๋๋ค. ๊ฐ์ด 1๋ก ๊ฐ์๋ก ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ด ๋งค์ฐ ์ ์์ธกํ ๊ฒ์ ์๋ฏธํ๋ค.
5-2. NMS(Non-Max Suppression)
NMS๋ ํ์ง ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๋ฉํธ๋ฆญ์ด๋ผ๊ธฐ ๋ณด๋ค๋ ํ์ง ๋ชจ๋ธ์ด ์ค๋ธ์ ํธ๋ฅผ ์ ํํ๊ฒ ์์ธกํ๋๋ก ๋์์ฃผ๋ ๊ธฐ์ ์ด๋ผ๊ณ ๋ณผ ์ ์์ ๊ฒ ๊ฐ๋ค.(ํน์ ๋ฉํธ๋ฆญ์ด๋ผ๋ ์ด๊ฒฌ์ด ์์ผ์๋ค๋ฉด ์ ๊ทน ํผ๋๋ฐฑ ๋ถํ๋๋ฆฝ๋๋ค!)
NMS๋, ์ฌ๋ฌ๊ฐ์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ค ์ค ๊ฐ์ฒด์ Confidence Score๊ฐ ๊ฐ์ฅ ๋์ ๋ฐ์ค๋ฅผ ์ ์ ํ๊ณ ์ด Score๋ณด๋ค ๋ฎ์ ๋ฐ์ค๋ค์ ์ญ์ ํ๋ค. ๊ทธ๋ฆฌ๊ณ Score๊ฐ ๊ฐ์ฅ ๋์ ๋ฐ์ค์ ๋ค๋ฅธ ๋ฐ์ค๋ค ๊ฐ์ IoU๋ฅผ ๊ณ์ฐํ๊ณ ๋ฏธ๋ฆฌ ์ง์ ํ IoU ์๊ณ๊ฐ ๋ณด๋ค ํฐ ๋ค๋ฅธ ๋ฐ์ค๋ค์ ๋ชจ๋ ์ ๊ฑฐ(๊ตณ์ด ๋งํ๋ฉด ์ ๊ฑฐ๋ณด๋ค๋ Suppress, ์ต๋๋ฅด๊ฒ ๋๋ค)ํ๊ฒ ๋๋ค. ์๋ง ํ ์คํธ๋ง์ผ๋ก๋ ๊ฐ์ด ์ ์์ฌ ๊ฒ์ด๋ค. ๋ค์ ๊ทธ๋ฆผ์ ์ดํด๋ณด์.
(# ์ฐธ๊ณ ๋ก ๋ฐ์ค๋ค ๊ฐ IoU๊ฐ ๊ณ์ฐ์ ์์๋ก ์ํํ ๊ฒ์ ๋๋ค!)
์ ๊ทธ๋ฆผ๊ณผ ์ค๋ช ์ ์ฒ์ฒํ ์ฝ์ด๋ณด์. ๋จผ์ Confidence Score๋, ํน์ ๋ฐ์ด๋ฉ ๋ฐ์ค์์ ์๋ ๊ฐ์ฒด๊ฐ ์ด๋ค ๋ฌผ์ฒด์ ํด๋์ค์ผ ํ๋ฅ (4๋ฒ ๋ชฉ์ฐจ์์ ์ํคํ ์ฒ ๊ทธ๋ฆผ์ Softmax ๋จ๊ณ๋ก ๋์ถ๋ ํ๋ฅ ๊ฐ)๊ณผ IoU๊ฐ์ ๊ณฑํ ๊ฐ์ธ๋ฐ, ์ ๊ทธ๋ฆผ์ ์์๋ก ๋ค์๋ฉด ๊ฐ ๋ฐ์ด๋ฉ ๋ฐ์ค์์ ์๋์ฐจ๊ฐ ์์ ํ๋ฅ ์ด๋ผ๊ณ ์ดํดํ๋ฉด ๋๊ฒ ๋ค.
NMS ๊ณผ์ ์ ์ํํ๊ณ ๋๋ฉด ํฌ๊ฒ 2๊ฐ์ง ์ด์ ์ด ์๋ค. ์ด๋ ์ฌ์ ์ ๊ฒฐ์ ํ๋ Confidence Score Threshold์ IoU Threshold ๊ฐ 2๊ฐ์ง์ ์ฐ๊ด์ด ์๋ค.
- Confidence Score Threshold๋ก๋ถํฐ ์ป๋ ์ด์ : ๊ทธ๋ฆผ์์ ๋ณด๋ ๊ฒ์ฒ๋ผ ๋นจ๊ฐ์ ๋ฐ์ค์์ ์๋ ์๋์ฐจ ๊ฐ์ฒด๋ฅผ ํ์งํ๊ธฐ ์ํด 3๊ฐ์ ๋ฐ์ด๋ฉ ๋ฐ์ค๊ฐ ๋์ถ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ์ด ๋ NMS๋ฅผ ์ํํ๊ฒ ๋๋ฉด ์๋์ฐจ ๊ฐ์ฒด๋ฅผ ๊ฐ์ฅ ์ ํ์งํ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์ ์ธํ ๋๋จธ์ง ํ๋์ ๋ฐ์ค๋ค์ ๋ชจ๋ ์ญ์ ํด ๋ฐ์ด๋ฉ ๋ฐ์ค๊ฐ ์ฌ๋ฌ๊ฐ ๋์ค๋ ๊ฒ์ ๋ง์ ์ ์๋ค.
- IoU Threshold๋ก๋ถํฐ ์ป๋ ์ด์ : ์ด๋ก์ ๋ค๋ชจ๋ฐ์ค๋ฅผ ์ญ์ ํ์ง ์๊ณ ์ ์ง์์ผ ๋ค๋ฅธ ๊ณณ์ ์๋ ๊ฐ์ฒด๋ค์ ํ์งํ๋๋ก ํ๋ค.(๋ค์์ ๊ฐ์ฒด๋ฅผ ํ์งํ๋๋ก ๋์์ค๋ค๋ ์๋ฏธ)
5-3. mAP(mean-Average Precision)
์ด ๊ฐ๋ ์ ์๊ธฐ ์ ์ Precision, Recall์ ๋ํ ๊ฐ๋ ์ ์๊ณ ๊ฐ์ผ ํ๋ค. ์ ๋ชจ๋ฅธ๋ค๋ฉด ์ด ํฌ์คํ ์ '4.Model์ ํ๊ฐ' ๋ชฉ์ฐจ๋ถ๋ถ์ ์ดํด๋ณด์. ์ปดํจํฐ ๋น์ ์์ Confusion Matrix์ TP(True Positive), FN(False Negative), FP(False, Positive)๊ฐ ์๋ฏธํ๋ ๋ฐ๋ ๋ค์๊ณผ ๊ฐ๋ค.
๊ทธ๋ฐ๋ฐ Precision, Recall์ Trade-off ๊ด๊ณ๊ฐ ์กด์ฌํ๋ค. ์ฆ, ๋ ๊ฐ์ ๊ฐ์ ๋ชจ๋ ์ต์์ ๊ฐ์ผ๋ก ๋์ด์ฌ๋ฆด ์ ์๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ๋ ์ค ํ๋์ ๊ฐ์ ๋์ด์ฌ๋ฆฌ๊ธฐ์๋ง ๋ชฐ๋ํ๋ค ๋ณด๋ฉด ์์น์ ์ธ ๊ฐ์ผ๋ก๋ ๋ฉ์ฉกํด ๋ณด์ด์ง๋ง ์๊ณ ๋ณด๋ฉด ์ฌ๊ฐํ ์ค๋ฅ๋ฅผ ๋ฐ๊ฒฌํ ์ ์๋ค.
- Precision์ 100%๋ก ์ฌ๋ฆฌ๋ ค ํ๋ค๋ฉด ์ ๋ง ๋์ ํ๋ฅ ๋ก ์์ธก๋ ๊ฒ๋ง ๋ชจ๋ธ์ด Positive๋ผ๊ณ ์์ธก(๋ชจ๋ธ์ด ๋ณด๊ธฐ์ ํ์คํ ๊ฒ๋ง ์์ธก)ํ๊ณ ๋๋จธ์ง๋ ๋ชจ๋ Negative๋ผ๊ณ ์์ธกํ๋ฉด ๋๋ค. ์ด๋ฌ๋ฉด FP(False Positive, ๋ชจ๋ธ์ด Positive๋ผ๊ณ ์์ธกํ์ ๋, ์ค์ Negative์ธ ๊ฒฝ์ฐ)๊ฐ์ด 0์ด ๋๋ค.
- Recall์ 100%๋ก ์ฌ๋ฆฌ๋ ค ํ๋ค๋ฉด ๋ชจ๋ ๊ฒฝ์ฐ๋ฅผ ๋ชจ๋ธ์ด Positive๋ผ๊ณ ์์ธกํ๋ฉด ๋๋ค. ์ด๋ฌ๋ฉด FN(False Negative, ๋ชจ๋ธ์ด Negative๋ผ๊ณ ์์ธกํ์ ๋, ์ค์ Positive์ธ ๊ฒฝ์ฐ)๊ฐ์ด 0์ด ๋๋ค.
์ด๋ ๊ฒ Precision, Recall ์์น๋ฅผ ์๋ชป ์ฌ์ฉํ๊ฒ ๋๋ฉด ์ค๋ฅ๊ฐ ๋ฐ์ํ ์ ์๊ธฐ ๋๋ฌธ์ Confidence Score ์๊ณ๊ฐ์ ์กฐ์ ํ๋ฉด์ ์ป์ Precision-Recall Curve ๊ทธ๋ํ๋ฅผ ๊ทธ๋ ค ๊ทธ๋ํ ์๋ ๋ฉด์ ์ ๋ํ๋ด๋ AP(Average Precision)๊ฐ์ ์ด์ฉํ๋ ๊ฒ์ด ์ข๋ค.
AP๋ Confidence Score ๊ฐ์ ๋ฐ๋ผ ์ป์ ๊ทธ๋ํ์ด๊ธฐ ๋๋ฌธ์ Confidence Score๋ฅผ ๋๊ฒ ์ค์ ํ๋ค๋ฉด ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ด ์ ๋ง ํ์ ํ๋ ์ผ์ด์ค๋ง Positive๋ผ๊ณ ์์ธกํ๊ธฐ ๋๋ฌธ์ Precision์ ๋งค์ฐ ๋์์ง๋ ๋ฐ๋ฉด Recall ์์น๋ ๋ฎ์์ง๊ฒ ๋๋ค.
๋ฐ๋๋ก Confidence Score๋ฅผ ๋ฎ๊ฒ ์ค์ ํ๋ค๋ฉด ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ด ๋ชจ๋ ์ผ์ด์ค์ ๋ํด Positive๋ผ๊ณ ์์ธก ๋์ฌ(?)๋ฅผ ํด๋ฒ๋ฆฌ๊ธฐ ๋๋ฌธ์ Recall ์์น๋ ๋งค์ฐ ๋์์ง์ง๋ง Precision ์์น๋ ๋ฎ์์ง๊ฒ ๋๋ค.
์ด์จ๊ฑฐ๋ ์์ ๊ฐ์ด Precision-Recall Curve ๊ทธ๋ํ์ ์๋ ๋ฉด์ ๋์ด๋ฅผ ๊ตฌํด AP๊ฐ์ ๊ตฌํ๊ฒ ๋๋ค. ์ด๋ ๊ฒ ๊ตฌํ ํ๋์ AP๊ฐ์ ํ๋์ ๊ฐ์ฒด(Object)์ ๋ํ ํ์ง ์ฑ๋ฅ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด AP์ ํ๊ท ๊ฐ์ ์ทจํ mAP๋ ๋ฌด์์ ์๋ฏธํ๋ ๊ฑธ๊น?
์ธ์์๋ ํ๋์ ๊ฐ์ฒด๋ง ๋ด๊ธด ์ด๋ฏธ์ง๊ฐ ์์ ์ ์์ง๋ง ์ฌ๋ฌ๊ฐ์ ๊ฐ์ฒด๋ค์ด ๋ด๊ธด ์ด๋ฏธ์ง๋ ์๋ค. mAP๋ ํ์์ ๊ฒฝ์ฐ์ ์ฌ์ฉํ๋ ๊ฐ๋ ์ด๋ค. ์ฆ, mAP๋ ์ฌ๋ฌ๊ฐ์ ๊ฐ์ฒด๋ค์ด ๋ด๊ธด ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ฒด ํ์งํ์ ๋ ํ๋์ ๊ฐ์ฒด์ ๋ํ AP๊ฐ์ ๊ตฌํ๊ณ ์ด๋ฏธ์ง์ ์กด์ฌํ๋ ๊ฐ์ฒด๋ค์ ๊ฐ์๋งํผ ํ๊ท ๊ฐ์ ์ทจํด์ฃผ๋ ๊ฒ์ด๋ค.
์ด๋ ๊ฒ ๊ฐ์ฒด ํ์ง์ ๋ํ ์ฌ๋ฌ๊ฐ์ง ๊ฐ๋ ๊ณผ ๋ฉํธ๋ฆญ ๋ช ๊ฐ์ง์ ๋ํด ์์๋ณด์๋ค. ๋ค์ ํฌ์คํ ๋ถํด ์ด ๊ฐ๋ ๋ค์ ๊ธฐ์ด๋ก ํ์ฌ RCNN, Faster RCNN, YOLO ๋ฑ๊ณผ ๊ฐ์ Object Detection Network์ ๋ํด ์ฐจ๊ทผ์ฐจ๊ทผ ๋ฐฐ์ฐ๊ณ ์๊ฐํด๋ณด๋ ค ํ๋ค.
'Data Science > Computer Vision' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Fast RCNN Object Detection ๋ชจ๋ธ (0) | 2021.04.13 |
---|---|
[ML] SPP(Spatial Pyramid Pooling) Object Detection ๋ชจ๋ธ (2) | 2021.04.11 |
[ML] RCNN(Regions with CNN) Object Detection ๋ชจ๋ธ (0) | 2021.04.10 |
[ML] ResNet & Inception Network๋? (2) | 2020.11.13 |
[ML] Convolutional Neural Network(CNN) (0) | 2020.10.07 |