๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

Data Science/Computer Vision

[ML] Mask RCNN Instance Segmentation ๋ชจ๋ธ

๋ฐ˜์‘ํ˜•

๐Ÿ”Š ํ•ด๋‹น ํฌ์ŠคํŒ…์—์„œ ์‚ฌ์šฉ๋œ ์ปจํ…์ธ ๋Š” ์ธํ”„๋Ÿฐ์˜ ๋”ฅ๋Ÿฌ๋‹ ์ปดํ“จํ„ฐ ๋น„์ „ ์™„๋ฒฝ ๊ฐ€์ด๋“œ ๊ฐ•์˜ ๋‚ด์šฉ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ–ˆ์Œ์„ ์•Œ๋ฆฝ๋‹ˆ๋‹ค. ์„ค๋ช…์—์„œ ์‚ฌ์šฉ๋œ ์ž๋ฃŒ๋Š” ์ตœ๋Œ€ํ•œ ์ œ๊ฐ€ ์ง์ ‘ ์žฌ๊ตฌ์„ฑํ•œ ์ž๋ฃŒ์ž„์„ ์•Œ๋ฆฝ๋‹ˆ๋‹ค.

 

์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” Pixel-level๋กœ Object Detection์„ ์ˆ˜ํ–‰ํ•˜๋Š” Instance Segmentation ๋ชจ๋ธ์ธ Mask RCNN์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋ ค๊ณ  ํ•œ๋‹ค. Mask RCNN์€ Two-Stage Object Detection ๋ชจ๋ธ์ธ Faster RCNN ๊ณผ Semantic Segmentation ๊ธฐ๋ฒ•์ธ FCN์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค.

 

Mask RCNN ๋ชจ๋ธ์€ Segmentation ๋ชจ๋ธ ์ข…๋ฅ˜ ์ค‘ ํ•˜๋‚˜์ด๋‹ค.


1. Segmentation์ด๋ž€?

Segmentation์€ ํ”ฝ์…€ ๋‹จ์œ„, ์ด๋ฅธ๋ฐ” Pixel-level๋กœ Classification์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋‹ค์Œ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์ง๊ด€์ ์œผ๋กœ ์ดํ•ด๊ฐ€ ๊ฐˆ ๊ฒƒ์ด๋‹ค.

 

Segmentation์€ ๊ฐ Pixel์„ Classificationํ•˜๋Š” ๋ฌธ์ œ์ด๋‹ค.

 

์œ„ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์ด๋ฏธ์ง€์˜ Object ๋ณ„๋กœ ํด๋ž˜์Šค๊ฐ€ [1,2,3,4,5] ์ค‘ ํ•˜๋‚˜๋กœ ๋ถ„๋ฅ˜๋˜์—ˆ์Œ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์œ„์™€ ๊ฐ™์€ ๊ณผ์ •์„ Segmentation์ด๋ผ๊ณ  ํ•œ๋‹ค.

2. Segmentation์˜ ์ข…๋ฅ˜

Segmentation ์ข…๋ฅ˜์— ๋Œ€ํ•ด ๊ฐ„๋‹จํžˆ ์‚ดํŽด๋ณด๊ณ  ๋„˜์–ด๊ฐ€์ž. Segmentation์—๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด 2๊ฐ€์ง€ ์ข…๋ฅ˜๊ฐ€ ์žˆ์œผ๋ฉฐ ์ฐจ์ด์ ์„ ์‹œ๊ฐ์ž๋ฃŒ๋กœ ํ™•์ธํ•ด๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

  • Semantic Segmentation : ๋™์ผํ•œ ๊ฐ์ฒด๋“ค๋ผ๋ฆฌ๋Š” ํ•œ ๋ฒˆ์— Masking์„ ์ˆ˜ํ–‰. FCN์ด ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ ๊ธฐ๋ฒ•์ด๋‹ค.
  • Instance Segmentation : ๋™์ผํ•œ ๊ฐ์ฒด๋“ค์ด์—ฌ๋„ ๊ฐœ๋ณ„๋กœ ์ฆ‰, ๊ฐœ๋ณ„ Object ๋ณ„๋กœ Masking์„ ์ˆ˜ํ–‰. ์•ž์œผ๋กœ ์•Œ์•„๋ณผ Mask RCNN์ด ์—ฌ๊ธฐ์— ์†ํ•œ๋‹ค.

Semantic Segmentation VS Instance Segmentation

3. Semantic Segmentation Encoder-Decoder Model

์ด ์ธ์ฝ”๋”-๋””์ฝ”๋” ๋ชจ๋ธ์€ ์ด์ „์— ๋ฐฐ์› ๋˜ ๊ฒฐ๊ณผ๊ฐ’์„ ์ž…๋ ฅ๊ฐ’๊ณผ ์ตœ๋Œ€ํ•œ ์œ ์‚ฌํ•˜๊ฒŒ ๋งŒ๋“ค์–ด์ฃผ๋Š” Auto Encoder ๋ชจ๋ธ๊ณผ ๊ตฌ์กฐ๊ฐ€ ๋น„์Šทํ•˜๋‹ค. ๋‹ค์Œ ๊ทธ๋ฆผ์„ ์‚ดํŽด๋ณด์ž.

 

Semantice Segmentation Encoder-Decoder Model

 

์ด ๋ชจ๋ธ์€ ์›๋ณธ ์ด๋ฏธ์ง€๋ฅผ Convolution์œผ๋กœ ์ฐจ์›์„ ์ถ•์†Œํ•ด ์›๋ณธ ์ด๋ฏธ์ง€์˜ ์‘์ง‘๋˜๊ณ  ์ถ”์ƒํ™”๋œ ํŠน์ง•์„ ์ถ”์ถœํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด๋ฅผ Up Sampling์„ ์‚ฌ์šฉํ•ด์„œ ๋‹ค์‹œ ๋ณต์›ํ•˜๋ฉฐ ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ํ•™์Šตํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•™์Šต๋œ ์ •๋ณด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ Segmentation Prediction์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ์œ„ ๊ทธ๋ฆผ์˜ Output๊ณผ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค.

4. FCN(Fully Convolutional Network)

FCN์€ Semantic Segmentation Encoder-Decoder Model์˜ ์ข…๋ฅ˜ ์ค‘ ํ•˜๋‚˜์ด๋‹ค. ์ถ”ํ›„์— ์†Œ๊ฐœํ•˜๊ฒ ์ง€๋งŒ ์ด FCN์˜ ๊ธฐ๋ฒ•์„ ์•ฝ๊ฐ„ ๋ณ€ํ˜•ํ•ด ํ™œ์šฉํ•œ ๊ฒƒ์ด Mask RCNN ๋ชจ๋ธ์ด๋‹ค. ์šฐ์„  FCN์ด ์–ด๋–ป๊ฒŒ ๋™์ž‘ํ•˜๋Š”์ง€ ๊ตฌ์กฐ๋ฅผ ์‚ดํŽด๋ณด์ž.

 

FCN(Fully Convolutional Network)

 

์ผ๋ฐ˜์ ์ธ Encoder-Decoder ๋ชจ๋ธ์ฒ˜๋Ÿผ ์›๋ณธ ์ด๋ฏธ์ง€๋ฅผ ์••์ถ•ํ•˜๋Š” Encoder ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ FCN์€ ๋ณต์›ํ•˜๋Š” Decoder ๊ณผ์ •์—์„œ ์‚ฌ์ด์ฆˆ๊ฐ€ ์ž‘์€ Convolutional Layer์—์„œ ๊ฐ‘์ž‘์Šค๋Ÿฝ๊ฒŒ ํ•œ ๋ฒˆ์— ์›๋ณธ ์ด๋ฏธ์ง€ ์‚ฌ์ด์ฆˆ์™€ ๋น„์Šทํ•œ ํฌ๊ธฐ์˜ ํ˜•ํƒœ๋กœ Up Sampling์„ ์ˆ˜ํ–‰ํ•ด์•ผํ•œ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ๋งŒ์•ฝ ๋งˆ์ง€๋ง‰ Convolutional Layer(๋นจ๊ฐ„์ƒ‰ ๋„ค๋ชจ์นธ)์—์„œ ๋‹จ์ˆœํ•œ Up Sampling์„ ์ง„ํ–‰ํ•œ๋‹ค๋ฉด Segmentation ๊ฒฐ๊ณผ๊ฐ€ ๋šœ๋ ทํ•˜์ง€ ๋ชปํ•˜๊ณ  ๊ตฌ๋ถ„์ด ์• ๋งค๋ชจํ˜ธํ•ด์ง€๋Š” ๋ฌธ์ œ์ ์ด ๋ฐœ์ƒํ•œ๋‹ค.

 

๋”ฐ๋ผ์„œ FCN์€ ResNet์—์„œ ์ฒ˜์Œ ์‚ฌ์šฉ๋˜์—ˆ๋˜ Skip Connection ๊ฐœ๋…์„ ์ฐจ์šฉํ•œ๋‹ค. ์ด๋Š” ์˜ˆ์ „์˜ YOLO V3 ๋ชจ๋ธ์˜ FPN(Feature Pyramid Network)์ด๋‚˜ SSD ๋ชจ๋ธ์˜ Multi-Scale Feature Layer์— ์‚ฌ์šฉ๋œ ๊ฒƒ๋“ค๊ณผ ๋งค์šฐ ๋น„์Šทํ•˜๋‹ค. FCN์—์„œ๋Š” Feature Map์— Skip Connection์„ ์‚ฌ์šฉํ•˜๋Š” ๊ตฌ์กฐ์ธ๋ฐ, ๋‹ค์Œ ๊ทธ๋ฆผ์„ ์‚ดํŽด๋ณด์ž.

 

FCN์—์„œ์˜ Skip Connection ๊ณผ์ •

 

Encoder ๊ณผ์ •์—์„œ Convolutional Layer๋ฅผ ๊ฑฐ์น˜๋ฉด์„œ ๋‚˜์˜ค๋Š” Feature Map์„ Skip Connectionํ•  ๋Œ€์ƒ์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค. ๊ทธ๋ž˜์„œ ์ด๋ฅผ Decoder์˜ ์›๋ณธ ์ด๋ฏธ์ง€ ์‚ฌ์ด์ฆˆ ํฌ๊ธฐ๋กœ Up Sampling์„ ์ง„ํ–‰ํ•  ๋•Œ Skip Connection์„ ํ™œ์šฉํ•˜๊ฒŒ ๋œ๋‹ค. ์ตœ์ข… Segmentation์€ ๋ณดํ†ต ๋งˆ์ง€๋ง‰ Up Sampling์„ ์ง„ํ–‰ํ•ด ๋‚˜์˜ค๊ฒŒ ๋˜๋Š” FCN-8s(์ดˆ๋ก์ƒ‰ ๋ฐ•์Šค)๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ํ•œ๋‹ค. ์•„๋ž˜ ์ž๋ฃŒ์—์„œ๋„ ์•Œ ์ˆ˜ ์žˆ๋“ฏ์ด FCN-8s๋ฅผ ํ™œ์šฉํ–ˆ์„ ๋•Œ๊ฐ€ Ground Truth(์ •๋‹ต)๊ณผ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๊ฒฐ๊ณผ๋ฅผ ๋ƒ„์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

 

Up Samplingํ•œ ๊ฐ Feature Map์„ ํ™œ์šฉํ•ด Segmentation ๊ฒฐ๊ณผ ๋น„๊ต

5. Mask RCNN = Faster RCNN + ๋ณ€ํ˜• FCN

4๋ฒˆ ๋ชฉ์ฐจ๊นŒ์ง€ ํ•ด์„œ FCN์ด ๋ฌด์—‡์ด๊ณ  ์–ด๋–ป๊ฒŒ ๋™์ž‘ํ•˜๋Š” ์ง€์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜๋‹ค. Mask RCNN์€ RPN(Region Proposal Network)์„ ํ™œ์šฉํ•œ Faster RCNN Object Detection ๋ชจ๋ธ๊ณผ ์•ฝ๊ฐ„์˜ ๋ณ€ํ˜•๋œ FCN์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค. ๋จผ์ € Mask RCNN์˜ ํฐ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ดํŽด๋ณด์ž.

 

Mask RCNN ํฐ ์•„ํ‚คํ…์ฒ˜

 

ํŠน์ดํ•œ ์ ์€ 2๊ฐ€์ง€์ด๋‹ค. ์šฐ์„  Faster RCNN์˜ ROI Pooling์ด ์•„๋‹Œ ROI Align ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ๋‹ค๋Š” ์ ๊ณผ FCN์„ ํ†ตํ•ด ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•  ๋•Œ Multi-Class Classification์ด ์•„๋‹Œ Binary Classification์„ ํ–ˆ๋‹ค๋Š” ์ ์ด๋‹ค. ํ•˜๋‚˜์”ฉ ์‚ดํŽด๋ณด์ž.


5-1. ROI Pooling ์˜ ๋ฌธ์ œ์ 

ROI Align์ด๋ผ๋Š” ๊ธฐ์ˆ ์ด ๋“ฑ์žฅํ•œ ์ด์œ ๋Š” ๋ถ„๋ช…ํžˆ ROI Pooling ์ด๋ผ๋Š” ๊ธฐ์ˆ ์ด ํ•œ๊ณ„๊ฐ€ ์žˆ์„ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋”ฐ๋ผ์„œ ROI Align์„ ์ดํ•ดํ•˜๊ธฐ ์ „์— ROI Pooling์ด ๋ฌด์Šจ ๋ฌธ์ œ์ ์„ ๊ฐ€์ง€๋Š”์ง€ ์•Œ์•„๋ณด์ž. 

 

ROI Pooling์€ ๊ธฐ๋ณธ์ ์œผ๋กœ $7 X 7$ ๊ทธ๋ฆฌ๋“œ๋งŒ์œผ๋กœ ๋ถ„๋ฉด์„ ๋‚˜๋ˆ„์–ด Bag Of Visual Words ๊ธฐ๋ฒ•์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ '๊ทธ๋ฆฌ๋“œ ๋ถ„ํ• ' ์ด๋ผ๋Š” ํŠน์„ฑ์„ ๊ฐ์•ˆํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— Feature Map์—์„œ ROI Feature Map์œผ๋กœ ๋ณ€ํ™˜ํ•  ๋•Œ ๋ฌด์กฐ๊ฑด ๋†’์ด, ๋„ˆ๋น„ ์‚ฌ์ด์ฆˆ๊ฐ€ ์ •์ˆ˜๊ฐ’์ด์–ด์•ผ ํ•œ๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ๋งŒ์•ฝ ์†Œ์ˆ˜์ ์œผ๋กœ ๊ณ„์‚ฐ๋˜๋”๋ผ๋„ ์†Œ์ˆ˜์ ์€ ๋‹ค ๋ฒ„๋ฆฌ๊ณ  ์ •์ˆ˜๊ฐ’๋งŒ์„ ๋‚จ๊ฒจ ์‚ฌ์ด์ฆˆ๋ฅผ ์„ค์ •ํ•ด์•ผ ํ•œ๋‹ค.(์ด๋ฅผ Quantization ๋ฌธ์ œ๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค) ์ž˜ ์ดํ•ด๊ฐ€ ๊ฐ€์ง€ ์•Š๋Š”๋‹ค๋ฉด ๋‹ค์Œ ๊ทธ๋ฆผ์„ ๋ณด์ž.

 

ROI Pooling์˜ ๋ฌธ์ œ์ 

 

์œ„ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ๊ฒฐ๊ตญ ROI Pooling ๊ณผ์ •์€ ์ด๋ฏธ์ง€์˜ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์ธ ROI Feature๋ฅผ ์ผ๋ถ€ ์†์‹คํ•˜๊ฒŒ ๋œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž ROI Align ๊ธฐ๋ฒ•์ด ๋“ฑ์žฅํ•œ๋‹ค.

5-2. ROI Align

ROI Align์€ Bilinear Interpolation์ธ ์ด์ค‘์„ ํ˜• ๋ณด๊ฐ„๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค. ROI Align ๊ณผ์ •์„ 3๋‹จ๊ณ„๋กœ ๊ตฌ๋ถ„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

  1. ROI์˜ ์‚ฌ์ด์ฆˆ ์†Œ์ˆ˜์ ์„ ๊ทธ๋Œ€๋กœ ์œ ์ง€ํ•˜๊ณ  ROI ๊ฐœ๋ณ„ ๊ทธ๋ฆฌ๋“œ์— Point๋ฅผ ๊ท ๋“ฑํ•˜๊ฒŒ ๋ฐฐ์—ดํ•œ๋‹ค.
  2. ๊ฐœ๋ณ„ Point์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด Feature Map ๊ทธ๋ฆฌ๋“œ๋ฅผ ๊ณ ๋ คํ•˜๋ฉฐ Point์— ๋“ค์–ด๊ฐˆ ๊ฐ’์„ Weighted Sum ํ•ด์ค€๋‹ค.
  3. ๊ณ„์‚ฐ๋œ ๋ชจ๋“  Point๋“ค์— ๋Œ€ํ•ด์„œ ์ง€์ •๋ค ์‚ฌ์ด์ฆˆ์˜ Max Pooling์„ ์ˆ˜ํ–‰ํ•ด์ค€๋‹ค.

ROI Align์˜ ๋™์ž‘ ๊ณผ์ •์„ ํ•„์ž๊ฐ€ ์ง์ ‘ ์„ค๋ช…ํ•˜๊ธฐ์— ํ•œ๊ณ„๊ฐ€ ์žˆ์–ด์„œ ๋Œ€์‹  ์ฐธ๊ณ ํ•˜๊ธฐ ๋งค์šฐ ์ข‹์€ ๋ธ”๋กœ๊ทธ๋ฅผ ๊ณต์œ ํ•˜๋ ค๊ณ  ํ•œ๋‹ค. ์˜์–ด๋กœ ์ž‘์„ฑ๋˜์–ด ์žˆ์ง€๋งŒ ์–ด๋ ค์šด ๋‹จ์–ด๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋„ ์•Š์•˜๊ณ  ์„ค๋ช…๋„ ๊น”๋”ํ•˜๊ณ  ๊ฐ„๊ฒฐํ•˜๊ฒŒ ์ž‘์„ฑ๋˜์—ˆ์œผ๋‹ˆ ๊ผญ ํ•œ ๋ฒˆ์”ฉ ์ฝ์–ด๋ณด๋„๋ก ํ•˜์ž. 

5-3. FCN์—์„œ๋Š” Masking ์ธ์ง€ ์•„๋‹Œ์ง€๋งŒ ์ƒ๊ฐํ•˜์ž

Mask RCNN์˜ FCN์—์„œ๋Š” ํŠน์ • ํ”ฝ์…€๊ฐ’์ด ์–ด๋–ค Object ํด๋ž˜์Šค๋กœ ๋ถ„๋ฅ˜๋˜๋Š” ์ง€ ๊ฒฐ์ •๋˜๋Š” Multi-Class Classification์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ํŠน์ • ํ”ฝ์…€๊ฐ’์ด ์–ด๋–ค ํด๋ž˜์Šค์ธ์ง€(ex.๊ฐ•์•„์ง€์ธ์ง€ ๊ณ ์–‘์ด์ธ์ง€, ์‚ฌ๋žŒ์ธ์ง€) ์ƒ๊ด€์—†์ด ๋‹จ์ˆœํžˆ Object๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” Masking ์ธ์ง€ ์•„๋‹Œ์ง€๋งŒ ๋ถ„๋ฅ˜ํ•˜๋Š” Binary Masking Classification์„ ์ˆ˜ํ–‰ํ•œ๋‹ค. 

 

๊ทธ๋ฆฌ๊ณ  Binary Masking Prediction์„ ๊ฑฐ์นœ ํ›„ Predicted Masking ์„ ์›๋ณธ ์ด๋ฏธ์ง€์˜ Object ์‚ฌ์ด์ฆˆ ๋งŒํผ ๋ณต์›ํ•˜๊ณ  ์ด๋ฅผ ์›๋ณธ ์ด๋ฏธ์ง€ ์œ„์— ๋ฎ์–ด์”Œ์šฐ๊ฒŒ(Overlap) ๋œ๋‹ค.

 

Predicted Mask๋ฅผ ์›๋ณธ ์ด๋ฏธ์ง€์— ์ ์šฉ์‹œํ‚ค๊ธฐ


6. Mask RCNN Loss Function

๋งˆ์ง€๋ง‰์œผ๋กœ Mask RCNN์˜ Loss Function์— ๋Œ€ํ•ด ๊ฐ„๋‹จํžˆ ์•Œ์•„๋ณด๊ณ  ๋งˆ๋ฌด๋ฆฌํ•˜์ž. Mask RCNN์˜ Loss Function์€ ๊ทธ๋™์•ˆ ๋ฐฐ์›Œ์™”๋˜ Object Detection ๋ชจ๋ธ๋“ค์˜ Loss Function์— Masking์— ๋Œ€ํ•œ Loss Function์„ ์ถ”๊ฐ€ํ•œ ๊ฒƒ๊ณผ ๋‹ค๋ฆ„์—†๋‹ค.

 

๋‹จ, Mask RCNN์„ ๊ตฌ์„ฑํ•˜๋Š” 2๊ฐ€์ง€ ์š”์†Œ ์ฆ‰, Faster RCNN์—์„œ๋Š” Object์˜ ํด๋ž˜์Šค๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” Multi-Class Cross-entropy Loss์™€ Bounding Box๋ฅผ ์ฐพ๋Š” $L1 \ Smooth$ Loss ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ˜๋ฉด, Masking ์—ฌ๋ถ€๋ฅผ ์˜ˆ์ธกํ•˜๋Š” FCN์—์„œ๋Š” Binary Cross-entropy Loss๋ฅผ ์‚ฌ์šฉํ•˜๊ฒŒ ๋œ๋‹ค.


์ง€๊ธˆ๊นŒ์ง€ ๋‹ค์ˆ˜์˜ ํฌ์ŠคํŒ…์„ ํ†ตํ•ด Object Detection์˜ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๋ชจ๋ธ๊ณผ Pixel-level Object Detection(Segmentation) ๋ชจ๋ธ์ธ Mask RCNN๊นŒ์ง€ ์ด๋ก ์ ์œผ๋กœ ์•Œ์•„๋ณด์•˜๋‹ค. ๊ฐ•์˜๋ฅผ ํ•™์Šตํ•˜๋ฉด์„œ ๋ฐฐ์šด ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๋ชจ๋ธ์„ ์ฝ”๋“œ๋กœ ๊ตฌํ˜„ํ•œ ๊ฒƒ๋“ค์€ ์—ฌ๊ธฐ๋ฅผ ์ฐธ์กฐํ•˜์ž.

 

(์ฝ”๋“œ๋„ ๊ฐ•์˜์—์„œ ์ œ๊ณตํ•˜๋Š” ์›๋ณธ ์ฝ”๋“œ๋ฅผ ๊ทธ๋Œ€๋กœ ์นดํ”ผํ•˜๊ธฐ ๋ณด๋‹ค ์ง์ ‘ ๋”ฐ๋ผ์น˜๋ฉด์„œ ํ•œ์ค„ ํ•œ์ค„ ๋œฏ์–ด๋ณด๊ธฐ ์œ„ํ•ด ํ•„์ž๊ฐ€ ์ง์ ‘ ์ฃผ์„๋„ ๋„ฃ๊ณ  ํ•œ ๋ถ€๋ถ„์ด ๋งŽ์Šต๋‹ˆ๋‹ค. ํ˜น์—ฌ๋‚˜ ์ฝ”๋“œ์— ๋Œ€ํ•œ ๊ถ๊ธˆํ•œ ์ ์ด๋‚˜ ๋ถ€์กฑํ•œ ์ ์ด ์žˆ๋‹ค๋ฉด ๋‚ ์นด๋กœ์šด ํ”ผ๋“œ๋ฐฑ์€ ์–ธ์ œ๋‚˜ ํ™˜์˜์ž…๋‹ˆ๋‹ค!)

 

- github.com/young-hun-jo/TIL/tree/master/computer_vision

 

young-hun-jo/TIL

๐Ÿ“(Today I learned) ๊ฐœ์ธ์ ์ธ ๊ณต๋ถ€ ๊ณต๊ฐ„์ด๋ฉฐ ์˜ค๋Š˜ ๋ฐฐ์šด ๊ฒƒ์„ ๊ธฐ๋กํ•˜๋Š” ๊ณต๊ฐ„์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. - young-hun-jo/TIL

github.com

 

 

 

 

๋ฐ˜์‘ํ˜•