mask r cnn ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅
ΠΠ°ΠΏΠΈΡΠ½Π°Ρ ΠΊΠ½ΠΈΠΆΠΊΠ°
ΠΠΎΠΌΠΏΡΡΡΠ΅ΡΠ½ΠΎΠ΅ Π·ΡΠ΅Π½ΠΈΠ΅, ΠΌΠ°ΡΠΈΠ½Π½ΠΎΠ΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅, Π½Π΅ΠΉΡΠΎΠ½Π½ΡΠ΅ ΡΠ΅ΡΠΈ ΠΈ Ρ.ΠΏ.
Mask R-CNN
Π Π°Π·Π±Π΅ΡΡΠΌ ΡΡΠ°ΡΡΡ [1], Π² ΠΊΠΎΡΠΎΡΠΎΠΉ ΠΎΠΏΠΈΡΠ°Π½Π° ΡΠ΅ΡΡ, ΡΠ΅ΡΠ°ΡΡΠ°Ρ Π·Π°Π΄Π°ΡΡ ΡΠ΅Π³ΠΌΠ΅Π½ΡΠ°ΡΠΈΠΈ ΡΠΊΠ·Π΅ΠΌΠΏΠ»ΡΡΠ° ΠΎΠ±ΡΠ΅ΠΊΡΠ° (object instance segmentation). ΠΠ²ΡΠΎΡΡ ΠΏΡΠ΅Π΄Π»Π°Π³Π°ΡΡ ΡΠ΅ΡΡ, ΠΊΠΎΡΠΎΡΡΡ ΠΎΠ½ΠΈ Π½Π°Π·Π²Π°Π»ΠΈ Mask R-CNN. Mask R-CNN Π±Π΅ΡΡΡ Π·Π° ΠΎΡΠ½ΠΎΠ²Ρ Faster R-CNN ΠΈ Π΄ΠΎΠ±Π°Π²Π»ΡΠ΅Ρ ΠΊ Π½Π΅ΠΉ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΡΡ Π²Π΅ΡΠ²Ρ. ΠΡΠ° Π²Π΅ΡΠ²Ρ Π½Π° Π²ΡΡ ΠΎΠ΄Π΅ Π΄ΠΎΠ»ΠΆΠ½Π° Π²ΡΠ΄Π°ΡΡ ΠΌΠ°ΡΠΊΡ ΠΎΠ±ΡΠ΅ΠΊΡΠ° Π² Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ ΠΊ ΠΎΠ³ΡΠ°Π½ΠΈΡΠΈΠ²Π°ΡΡΠ΅ΠΌΡ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊΡ ΠΈ ΠΊΠ»Π°ΡΡΡ.
ΠΠ½Π°ΡΠ°Π»Π΅ Π²ΡΠΏΠΎΠΌΠ½ΠΈΠΌ Faster R-CNN ΡΠ΅ΡΡ ΠΈΠ· [2].
ΠΠ½Π° ΡΠΎΡΡΠΎΠΈΡ ΠΈΠ· ΡΡΡΡ ΡΠ°ΡΡΠ΅ΠΉ:
ΠΠ΅Π½Π΅ΡΠ°ΡΠΎΡ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠ΅ΠΉ (features extractor), ΠΊΠΎΡΠΎΡΡΠΉ, ΠΏΠΎΠ»ΡΡΠΈΠ² Π½Π° Π²Ρ ΠΎΠ΄ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅, Π²ΡΠ΄Π°ΡΡ 3Ρ -ΠΌΠ΅ΡΠ½ΡΠΉ ΡΠ΅Π½Π·ΠΎΡ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠ΅ΠΉ. ΠΡΠΈ ΡΡΠΎΠΌ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡ Π²Π΅ΠΊΡΠΎΡΡ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠ΅ΠΉ ΠΈΠ· ΡΡΠΎΠ³ΠΎ ΡΠ΅Π½Π·ΠΎΡΠ° ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΠ΅Ρ Π½Π΅ΠΊΠΎΡΠΎΡΡΠΉ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊ ΠΈΡΡ ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ. Π ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΡΠ°ΠΊΠΎΠ³ΠΎ Π³Π΅Π½Π΅ΡΠ°ΡΠΎΡΠ° ΠΌΠΎΠΆΠ΅Ρ Π²ΡΡΡΡΠΏΠ°ΡΡ, Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, ΡΠ΅ΡΡ VGG16 ΠΈΠ»ΠΈ ResNet101 Π±Π΅Π· ΠΏΠΎΠ»Π½ΠΎΡΠ²ΡΠ·Π½ΡΡ ΡΠ»ΠΎΡΠ².
Region Proposal Network (RPN). Π‘Π΅ΡΡ, ΠΊΠΎΡΠΎΡΠ°Ρ ΠΏΠΎΠ»ΡΡΠΈΠ² Π½Π° Π²Ρ ΠΎΠ΄ ΡΠ΅Π½Π·ΠΎΡ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠ΅ΠΉ, Π³Π΅Π½Π΅ΡΠΈΡΡΠ΅Ρ Π½Π΅ΠΊΠΎΡΠΎΡΠΎΠ΅ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΡΠ΅Π³ΠΈΠΎΠ½ΠΎΠ², Π² ΠΊΠΎΡΠΎΡΡΡ ΠΏΡΠ΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΡΠ΅Π»ΡΠ½ΠΎ Π΅ΡΡΡ ΠΎΠ±ΡΠ΅ΠΊΡΡ
3.1. ΠΊΠ»Π°ΡΡ ΠΎΠ±ΡΠ΅ΠΊΡΠ° (Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, ΡΡΠΎ ΠΊΠ»Π°ΡΡ Π±ΡΠ΄Π΅Ρ background)
3.2. ΡΡΠΎΡΠ½ΡΠ½Π½ΡΠΉ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊ ΠΎΠ±ΡΠ΅ΠΊΡΠ°
ΠΠ°ΠΆΠ½ΠΎ ΡΠ΄Π΅Π»Π°ΡΡ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ Π·Π°ΠΌΠ΅ΡΠ°Π½ΠΈΠΉ ΠΎΠ± ΠΎΡΠ»ΠΈΡΠΈΠΈ Mask R-CNN ΠΏΠΎΠ΄Ρ ΠΎΠ΄Π° ΠΎΡ ΡΠ»ΡΡΠ°Ρ ΡΠ΅Π³ΠΌΠ΅Π½ΡΠ°ΡΠΈΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ.
ΠΠ΅ΡΠ½ΡΠΌΡΡ ΠΊ Mask R-CNN ΡΠ΅ΡΠΈ.
ΠΠΎΠ»ΡΡΠ°Ρ ΡΠ°ΡΡΡ Faster R-CNN ΡΡ Π΅ΠΌΡ ΡΠΎΡ ΡΠ°Π½Π΅Π½Π° (Π³Π΅Π½Π΅ΡΠ°ΡΠΎΡ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠ΅ΠΉ, RPN, ΠΏΠΎΠ»Π½ΠΎΡΠ²ΡΠ·Π½ΡΠ΅ ΡΠ»ΠΎΠΈ Π΄Π»Ρ ΠΏΠΎΠ»ΡΡΠ΅Π½ΠΈΡ ΠΊΠ»Π°ΡΡΠ° ΠΎΠ±ΡΠ΅ΠΊΡΠ° ΠΈ ΡΡΠΎΡΠ½Π΅Π½ΠΈΡ ΠΏΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊΠ°). ΠΠ»Π°ΡΡ ΠΈ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊ ΠΎΠ±ΡΠ΅ΠΊΡΠ° ΡΠ΅ΡΡ Π²ΡΠ΄Π°ΡΡ Π² Π²ΠΈΠ΄Π΅ Π²Π΅ΠΊΡΠΎΡΠΎΠ² Π½Π΅Π±ΠΎΠ»ΡΡΠΎΠΉ ΡΠ°Π·ΠΌΠ΅ΡΠ½ΠΎΡΡΠΈ (Π΄Π»Ρ ΠΊΠ»Π°ΡΡΠ° ΡΡΠΎ Π²Π΅ΠΊΡΠΎΡ Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΠ΅ΠΉ, Π΄Π»Ρ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊΠ° Π²Π΅ΠΊΡΠΎΡ ΡΠ²ΠΈΠ³ΠΎΠ² ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°Ρ), ΠΈ ΠΈΡ Π»ΠΎΠ³ΠΈΡΠ½ΠΎ Π³Π΅Π½Π΅ΡΠΈΡΠΎΠ²Π°ΡΡ, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ ΠΏΠΎΠ»Π½ΠΎΡΠ²ΡΠ·Π½ΡΠ΅ ΡΠ»ΠΎΠΈ. ΠΠ΄Π½Π°ΠΊΠΎ, ΠΌΠ°ΡΠΊΡ, ΠΊΠΎΡΠΎΡΠ°Ρ ΠΏΠΎ ΡΡΡΠΈ Π±ΠΈΠ½Π°ΡΠ½ΠΎΠ΅ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅, Π΅ΡΡΠ΅ΡΡΠ²Π΅Π½Π½ΠΎ Π³Π΅Π½Π΅ΡΠΈΡΠΎΠ²Π°ΡΡ, ΡΠΎΡ ΡΠ°Π½ΡΡ ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²Π΅Π½Π½ΡΡ ΡΡΡΡΠΊΡΡΡΡ, ΠΈΠΌΠ΅ΡΡΡΡΡΡ Π² ΡΠ΅Π½Π·ΠΎΡΠ΅ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠ΅ΠΉ. Π Π·Π½Π°ΡΠΈΡ Π²ΠΌΠ΅ΡΡΠΎ ΠΏΠΎΠ»Π½ΠΎΡΠ²ΡΠ·Π½ΡΡ ΡΠ»ΠΎΡΠ² Π±ΡΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ ΡΠ²ΡΡΡΠΎΡΠ½ΡΠ΅. ΠΡΠΎ Π² ΡΠΎΠΌ ΡΠΈΡΠ»Π΅ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡ ΡΠΌΠ΅Π½ΡΡΠΈΡΡ ΡΠΈΡΠ»ΠΎ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ², Π° Π·Π½Π°ΡΠΈΡ ΡΠΏΡΠΎΡΡΠΈΡ ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΡ.
RoIAlign
ΠΡΠ΅ ΠΎΠ΄Π½ΠΎ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π² ΡΡΡΡΠΊΡΡΡΠ΅ ΡΠ΅ΡΠΈ, ΡΠ²ΡΠ·Π°Π½Π½ΠΎΠ΅ Ρ ΠΆΠ΅Π»Π°Π½ΠΈΠ΅ΠΌ ΠΏΠΎΠ»ΡΡΠΈΡΡ ΠΌΠ°ΡΠΊΡ ΠΎΠ±ΡΠ΅ΠΊΡΠ°, ΡΡΠΎ Π·Π°ΠΌΠ΅Π½Π° RoIPool ΡΠ»ΠΎΡ Π½Π° RoIAlign. RoIPool ΡΠ»ΠΎΠΉ ΠΏΠΎΡΠ²ΠΈΠ»ΡΡ Π² Fast R-CNN ΠΈ Π±ΡΠ» Π² Π½Π΅ΠΊΠΎΡΠΎΡΠΎΠΌ ΡΠΌΡΡΠ»Π΅ ΡΠΏΡΠΎΡΠ΅Π½ΠΈΠ΅ΠΌ ΠΏΠΎΠ΄Ρ ΠΎΠ΄Π° SPPooling ΠΈΠ· [4]. ΠΠ»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ RoI Π½Π° ΡΠ΅Π½Π·ΠΎΡ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠ΅ΠΉ Π½Π°ΠΊΠ»Π°Π΄ΡΠ²Π°Π»Π°ΡΡ ΡΠ΅ΡΠΊΠ° Ρ ΡΠΈΠΊΡΠΈΡΠΎΠ²Π°Π½Π½ΡΠΌ ΡΠΈΡΠ»ΠΎΠΌ ΡΡΠ΅Π΅ΠΊ (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, 7×7) ΠΈ ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΡΡΠ΅ΠΉΠΊΠ΅ ΡΠ΅ΡΠΊΠΈ ΠΏΡΠΈΠΌΠ΅Π½ΡΠ»ΡΡ MaxPooling, ΡΠ°ΠΊΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊΠ° ΠΏΡΠ΅ΡΠ΅Π½Π΄Π΅Π½ΡΠ° ΠΏΠΎΠ»ΡΡΠ°Π»ΡΡ ΡΠ΅Π½Π·ΠΎΡ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠ΅ΠΉ, Π½ΠΎ ΡΠΆΠ΅ ΡΠΈΠΊΡΠΈΡΠΎΠ²Π°Π½Π½ΡΡ ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²Π΅Π½Π½ΡΡ ΡΠ°Π·ΠΌΠ΅ΡΠ½ΠΎΡΡΠ΅ΠΉ (ΡΠ΅ ΡΠ°ΠΌΡΠ΅ 7×7). ΠΡΠΎΠ±Π»Π΅ΠΌΠ° Π² ΡΠΎΠΌ, ΡΡΠΎ ΠΏΡΠΈ ΠΈΠ·Π²Π»Π΅ΡΠ΅Π½ΠΈΠΈ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠ΅ΠΉ Π΄Π»Ρ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊΠ° ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ RoIPool ΠΏΡΠΎΡΠ΅Π΄ΡΡΡ, ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°ΡΡ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊΠ° ΠΎΠΊΡΡΠ³Π»ΡΡΡΡΡ, Π° ΡΡΠ΅ΠΉΠΊΠΈ Π½Π° ΠΊΠΎΡΠΎΡΡΠ΅ ΡΠ°Π·Π±ΠΈΡ RoI Π²ΡΡΠ°Π²Π½ΠΈΠ²Π°ΡΡΡΡ ΠΏΠΎ Π³ΡΠ°Π½ΠΈΡΠ°ΠΌ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠ΅ΠΉ. Π ΡΠ»ΡΡΠ°Π΅ ΠΊΠΎΠ³Π΄Π° ΠΌΡ Ρ ΠΎΡΠΈΠΌ ΡΠΎΠ»ΡΠΊΠΎ ΠΏΠΎΠ»ΡΡΠΈΡΡ ΠΊΠ»Π°ΡΡ ΠΎΠ±ΡΠ΅ΠΊΡΠ° ΠΈ Π΅Π³ΠΎ ΡΠ°ΡΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ Π½Π° ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΈ, ΡΠ°ΠΊΠΎΠΉ βΠ½Π΅ ΡΠΎΡΠ½ΡΠΉβ ΠΏΠΎΠ΄Ρ ΠΎΠ΄ Π½Π°Ρ Π²ΠΏΠΎΠ»Π½Π΅ ΡΡΡΡΠ°ΠΈΠ²Π°Π΅Ρ, ΠΏΠΎΡΠΊΠΎΠ»ΡΠΊΡ Π΄Π°Π½Π½ΡΠ΅ Ρ Π°ΡΠ°ΠΊΡΠ΅ΡΠΈΡΡΠΈΠΊΠΈ ΠΎΠ±ΡΠ΅ΠΊΡΠ° ΡΡΡΠΎΠΉΡΠΈΠ²Ρ ΠΊ ΠΌΠ°Π»ΡΠΌ ΡΠ΄Π²ΠΈΠ³Π°ΠΌ. ΠΠ΄Π½Π°ΠΊΠΎ, Π΄Π»Ρ ΠΏΠΎΠ»ΡΡΠ΅Π½ΠΈΠ΅ ΠΌΠ°ΡΠΊΠΈ ΡΡΠΎ ΡΠΏΡΠΎΡΠ΅Π½ΠΈΠ΅ Π½Π΅ Π΄Π°ΡΡ Π΄ΠΎΡΡΠ°ΡΠΎΡΠ½ΠΎΠΉ ΡΠΎΡΠ½ΠΎΡΡΠΈ.
ΠΠ»Ρ Π½Π°Π³Π»ΡΠ΄Π½ΠΎΡΡΠΈ ΡΠ°ΡΡΠΌΠΎΡΡΠΈΠΌ ΠΏΡΠΎΡΡΡΡ ΡΠΈΡΡΠ°ΡΠΈΡ, ΠΊΠΎΠ³Π΄Π° Π½Π° RoI Π½Π°ΠΊΠ»Π°Π΄ΡΠ²Π°Π΅ΡΡΡ ΡΠ΅ΡΠΊΠ° 2×2:
RoIPool ΠΏΠΎΡΠ»Π΅ ΠΎΠΊΡΡΠ³Π»Π΅Π½ΠΈΡ ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°Ρ ΠΈ Π²ΡΡΠ°Π²Π½ΠΈΠ²Π°Π½ΠΈΡ ΡΡΠ΅Π΅ΠΊ ΠΏΠΎ Π³ΡΠ°Π½ΠΈΡΠ°ΠΌ ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠ΅ΠΉ Π²ΡΠ΄Π°ΡΡ ΡΠ»Π΅Π΄ΡΡΡΠΈΠΉ Π½Π°Π±ΠΎΡ:
Π£ΡΠ²Π΅ΡΠΆΠ΄Π°Π΅ΡΡΡ (Π² [1] Π΅ΡΡΡ ΡΠ°Π±Π»ΠΈΡΠ° Ρ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠ°ΠΌΠΈ ΡΠ΅ΡΡΠΎΠ²), ΡΡΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ RoIAlign ΡΠ»ΠΎΡ ΡΠ»ΡΡΡΠ°Π΅Ρ ΠΊΠ°ΡΠ΅ΡΡΠ²ΠΎ ΡΠ°Π±ΠΎΡΡ ΡΠ΅ΡΠΈ, ΠΊΠ°ΠΊ ΠΎΡΠ½ΠΎΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΡΠ»ΡΡΠ°Ρ RoIPool, ΡΠ°ΠΊ ΠΈ ΠΎΡΠ½ΠΎΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΡΠ»ΡΡΠ°Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ ΠΏΠΎΠ΄Ρ ΠΎΠ΄Π°, ΠΊΠΎΡΠΎΡΡΠΉ Π°Π²ΡΠΎΡΡ Π½Π°Π·ΡΠ²Π°ΡΡ RoIWarp (ΡΠΌ. [5]). ΠΡΠΈΡΠ΅ΠΌ ΠΏΡΠΈΡΠΎΡΡ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° ΠΎΡΠ½ΠΎΡΠΈΡΠ΅Π»ΡΠ½ΠΎ RoIPool ΡΠΎΡΡΠ°Π²Π»ΡΠ΅Ρ ΠΏΠΎΡΡΠ΄ΠΊΠ° 7%.
Π‘ΠΎ ΡΡΡΡΠΊΡΡΡΠΎΠΉ ΡΠ΅ΡΠΈ ΡΠ°Π·ΠΎΠ±ΡΠ°Π»ΠΈΡΡ, ΠΎΡΡΠ°Π»ΠΎΡΡ ΠΏΠΎΠ½ΡΡΡ ΠΊΠ°ΠΊ ΠΈΠ·ΠΌΠ΅Π½ΠΈΡΡΡ ΡΡΡΠ°ΡΠ½Π°Ρ ΡΡΠ½ΠΊΡΠΈΡ ΠΈ ΠΏΡΠΎΡΠ΅Π΄ΡΡΠ° ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠΈ. Π ΡΠ»ΡΡΠ°Π΅ Faster R-CNN ΡΡΡΠ°ΡΠ½Π°Ρ ΡΡΠ½ΠΊΡΠΈΡ ΡΠΎΡΡΠΎΡΠ»Π° ΠΈΠ· Π΄Π²ΡΡ ΡΠ»Π°Π³Π°Π΅ΠΌΡΡ :
ΠΠ°ΠΊΠ»ΡΡΠ΅Π½ΠΈΠ΅
ΠΠ°Π½Π½ΡΠΉ ΠΏΠΎΠ΄Ρ ΠΎΠ΄ Π² ΡΠ°ΠΌΠΊΠ°Ρ ΡΠ΅ΡΠ΅Π½ΠΈΡ Π·Π°Π΄Π°ΡΠΈ instance segmentation Π΄Π°ΡΡ ΠΎΡΠ΅Π½Ρ Ρ ΠΎΡΠΎΡΠΈΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ. Π ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΠΏΡΠΈΠΌΠ΅ΡΠ° Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΠΊΠ°ΡΡΠΈΠ½ΠΎΠΊ ΠΈΠ· ΡΡΠ°ΡΡΠΈ [1]:
ΠΠ³ΡΠ°Π½ΠΈΡΠ΅Π½ΠΈΡ ΠΎΡΠ½ΠΎΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΠΎΠ±ΡΡΠ½ΠΎΠΉ ΡΠ΅Π³ΠΌΠ΅Π½ΡΠ°ΡΠΈΠΈ ΡΠ°ΠΊΠΆΠ΅ ΠΏΠΎΠ½ΡΡΠ½Ρ, Π±ΠΎΠ»ΡΡΠΈΠ΅ ΠΏΡΠΎΡΡΠΆΠ΅Π½Π½ΡΠ΅ ΠΎΠ±ΡΠ΅ΠΊΡΡ, Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, Π΄ΠΎΡΠΎΠ³ΠΈ, ΡΠ°ΠΊΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ ΠΈΡΠΊΠ°ΡΡ Π±ΡΠ΄Π΅Ρ ΡΡΡΠ΄Π½ΠΎΠ²Π°ΡΠΎ.
ΠΠΈΡΠ΅ΡΠ°ΡΡΡΠ°
Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick, βMask R-CNNβ. arXiv:1409.4842 2017-2018
S. Ren, K. He, R. Girshick, and J. Sun, βFaster R-CNN: Towards real-time object detection with region proposal networks,β in Neural Information Processing Systems (NIPS), 2015.
E. Shelhamer, J. Long, T. Darrell, βFully Convolutional Networks for Semantic Segmentation.β arXiv:1605.06211 2016
K. He, X. Zhang, S. Ren, J. Sun, βSpatial pyramid pooling in deep convolutional networks for visual recognition.β arXiv:1406.4729, 2014
K. He, J. Dai, J. Sun, βInstance-aware Semantic Segmentation via Multi-task Network Cascadesβ arXiv:1512.04412, 2015
ConvNets. Π‘ΠΎΠ·Π΄Π°Π½ΠΈΠ΅ ΠΏΡΠΎΡΠΎΡΠΈΠΏΠ° ΠΏΡΠΎΠ΅ΠΊΡΠ° Ρ ΠΏΠΎΠΌΠΎΡΡΡ Mask R-CNN
ΠΡΠΈΠ²Π΅Ρ, Π₯Π°Π±Ρ! ΠΡ, Π½Π°ΠΊΠΎΠ½Π΅Ρ, Π΄ΠΎΠΆΠ΄Π°Π»ΠΈΡΡ Π΅ΡΠ΅ ΠΎΠ΄Π½ΠΎΠΉ ΡΠ°ΡΡΠΈ ΡΠ΅ΡΠΈΠΈ ΠΌΠ°ΡΠ΅ΡΠΈΠ°Π»ΠΎΠ² ΠΎΡ Π²ΡΠΏΡΡΠΊΠ½ΠΈΠΊΠ° Π½Π°ΡΠΈΡ ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌ βΠ‘ΠΏΠ΅ΡΠΈΠ°Π»ΠΈΡΡ ΠΏΠΎ Π±ΠΎΠ»ΡΡΠΈΠΌ Π΄Π°Π½Π½ΡΠΌβ ΠΈ βDeep Learningβ, ΠΠΈΡΠΈΠ»Π»Π° ΠΠ°Π½ΠΈΠ»ΡΠΊΠ°, ΠΎΠ± ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠΈ ΠΏΠΎΠΏΡΠ»ΡΡΠ½ΡΡ Π½Π° ΡΠ΅Π³ΠΎΠ΄Π½ΡΡΠ½ΠΈΠΉ Π΄Π΅Π½Ρ Π½Π΅ΠΉΡΠΎΠ½Π½ΡΡ ΡΠ΅ΡΠ΅ΠΉ Mask R-CNN ΠΊΠ°ΠΊ ΡΠ°ΡΡΠΈ ΡΠΈΡΡΠ΅ΠΌΡ Π΄Π»Ρ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ, Π° ΠΈΠΌΠ΅Π½Π½ΠΎ ΠΎΡΠ΅Π½ΠΊΠΈ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° ΠΏΡΠΈΠ³ΠΎΡΠΎΠ²Π»Π΅Π½Π½ΠΎΠ³ΠΎ Π±Π»ΡΠ΄Π° ΠΏΠΎ Π½Π°Π±ΠΎΡΡ Π΄Π°Π½Π½ΡΡ Ρ ΡΠ΅Π½ΡΠΎΡΠΎΠ².
Π Π°ΡΡΠΌΠΎΡΡΠ΅Π² Π² ΠΏΡΠ΅Π΄ΡΠ΄ΡΡΠ΅ΠΉ ΡΡΠ°ΡΡΠ΅ ΠΈΠ³ΡΡΡΠ΅ΡΠ½ΡΠΉ Π½Π°Π±ΠΎΡ Π΄Π°Π½Π½ΡΡ , ΡΠΎΡΡΠΎΡΡΠΈΠΉ ΠΈΠ· ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ Π΄ΠΎΡΠΎΠΆΠ½ΡΡ Π·Π½Π°ΠΊΠΎΠ², ΡΠ΅ΠΏΠ΅ΡΡ ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ ΠΏΠ΅ΡΠ΅ΠΉΡΠΈ ΠΊ ΡΠ΅ΡΠ΅Π½ΠΈΡ Π·Π°Π΄Π°ΡΠΈ, Ρ ΠΊΠΎΡΠΎΡΠΎΠΉ Ρ ΡΡΠΎΠ»ΠΊΠ½ΡΠ»ΡΡ Π² ΡΠ΅Π°Π»ΡΠ½ΠΎΠΉ ΠΆΠΈΠ·Π½ΠΈ: Β«ΠΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ Π»ΠΈ ΡΠ΅Π°Π»ΠΈΠ·ΠΎΠ²Π°ΡΡ Deep Learning Π°Π»Π³ΠΎΡΠΈΡΠΌ, ΠΊΠΎΡΠΎΡΡΠΉ ΠΌΠΎΠ³ Π±Ρ ΠΎΡΠ»ΠΈΡΠΈΡΡ Π±Π»ΡΠ΄Π° Π²ΡΡΠΎΠΊΠΎΠ³ΠΎ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° ΠΎΡ ΠΏΠ»ΠΎΡ ΠΈΡ Π±Π»ΡΠ΄ ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΉ ΡΠΎΡΠΎΠ³ΡΠ°ΡΠΈΠΈ?Β». ΠΠΊΡΠ°ΡΡΠ΅, Π±ΠΈΠ·Π½Π΅Ρ Ρ ΠΎΡΠ΅Π» Π²ΠΎΡ ΡΡΠΎ:
Π§ΡΠΎ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΠ΅Ρ Π±ΠΈΠ·Π½Π΅Ρ, ΠΊΠΎΠ³Π΄Π° Π΄ΡΠΌΠ°Π΅Ρ ΠΎ ΠΌΠ°ΡΠΈΠ½Π½ΠΎΠΌ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠΈ:
ΠΡΠΎ ΠΏΡΠΈΠΌΠ΅Ρ Π½Π΅ΠΊΠΎΡΡΠ΅ΠΊΡΠ½ΠΎ ΠΏΠΎΡΡΠ°Π²Π»Π΅Π½Π½ΠΎΠΉ Π·Π°Π΄Π°ΡΠΈ: Π² Π΄Π°Π½Π½ΠΎΠΌ ΡΠ»ΡΡΠ°Π΅ Π½Π΅Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΡΠ΅Π΄Π΅Π»ΠΈΡΡ, ΡΡΡΠ΅ΡΡΠ²ΡΠ΅Ρ Π»ΠΈ ΡΠ΅ΡΠ΅Π½ΠΈΠ΅, ΡΠ½ΠΈΠΊΠ°Π»ΡΠ½ΠΎ ΠΈ ΡΡΡΠΎΠΉΡΠΈΠ²ΠΎ Π»ΠΈ ΠΎΠ½ΠΎ. Π ΡΠΎΠΌΡ ΠΆΠ΅ ΡΠ°ΠΌΠ° ΠΏΠΎΡΡΠ°Π½ΠΎΠ²ΠΊΠ° Π·Π°Π΄Π°ΡΠΈ ΠΎΡΠ΅Π½Ρ ΡΠ°ΡΠΏΠ»ΡΠ²ΡΠ°ΡΠ°, Π½Π΅ Π³ΠΎΠ²ΠΎΡΡ ΡΠΆΠ΅ ΠΎ ΡΠ΅Π°Π»ΠΈΠ·Π°ΡΠΈΠΈ Π΅Π΅ ΡΠ΅ΡΠ΅Π½ΠΈΡ. ΠΠΎΠ½Π΅ΡΠ½ΠΎ, Π΄Π°Π½Π½Π°Ρ ΡΡΠ°ΡΡΡ Π½Π΅ ΠΏΠΎΡΠ²ΡΡΠ΅Π½Π° ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΠΈ ΠΊΠΎΠΌΠΌΡΠ½ΠΈΠΊΠ°ΡΠΈΠΉ ΠΈΠ»ΠΈ ΡΠΏΡΠ°Π²Π»Π΅Π½ΠΈΡ ΠΏΡΠΎΠ΅ΠΊΡΠ°ΠΌΠΈ, ΠΎΠ΄Π½Π°ΠΊΠΎ Π²Π°ΠΆΠ½ΠΎ ΠΎΡΠΌΠ΅ΡΠΈΡΡ: Π½ΠΈΠΊΠΎΠ³Π΄Π° Π½Π΅ Π±Π΅ΡΠΈΡΠ΅ΡΡ Π·Π° ΠΏΡΠΎΠ΅ΠΊΡΡ, Π² ΠΊΠΎΡΠΎΡΡΡ ΠΊΠΎΠ½Π΅ΡΠ½ΡΠΉ ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ Π½Π΅ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ ΠΈ Π·Π°ΡΠΈΠΊΡΠΈΡΠΎΠ²Π°Π½ Π² Π’Π. ΠΠ΄ΠΈΠ½ ΠΈΠ· Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π½Π°Π΄Π΅ΠΆΠ½ΡΡ ΡΠΏΠΎΡΠΎΠ±ΠΎΠ² ΡΠΏΡΠ°Π²ΠΈΡΡΡΡ Ρ ΡΠ°ΠΊΠΎΠΉ Π½Π΅ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½Π½ΠΎΡΡΡΡ β ΡΡΠΎ ΡΠ½Π°ΡΠ°Π»Π° ΠΏΠΎΡΡΡΠΎΠΈΡΡ ΠΏΡΠΎΡΠΎΡΠΈΠΏ, Π° Π·Π°ΡΠ΅ΠΌ, ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π² Π½ΠΎΠ²ΡΠ΅ Π·Π½Π°Π½ΠΈΡ, ΡΡΡΡΠΊΡΡΡΠΈΡΠΎΠ²Π°ΡΡ Π²ΡΡ ΠΎΡΡΠ°Π»ΡΠ½ΡΡ Π·Π°Π΄Π°ΡΡ. ΠΠΌΠ΅Π½Π½ΠΎ ΡΠ°ΠΊ ΠΌΡ ΠΈ ΠΏΠΎΡΡΡΠΏΠΈΠ»ΠΈ.
ΠΠΎΡΡΠ°Π½ΠΎΠ²ΠΊΠ° Π·Π°Π΄Π°ΡΠΈ
Π ΡΠ²ΠΎΠ΅ΠΌ ΠΏΡΠΎΡΠΎΡΠΈΠΏΠ΅ Ρ ΡΠΎΡΡΠ΅Π΄ΠΎΡΠΎΡΠΈΠ»ΡΡ Π½Π° ΠΎΠ΄Π½ΠΎΠΌ Π±Π»ΡΠ΄Π΅ ΠΈΠ· ΠΌΠ΅Π½Ρ β ΠΎΠΌΠ»Π΅ΡΠ΅ β ΠΈ ΠΏΠΎΡΡΡΠΎΠΈΠ» ΠΌΠ°ΡΡΡΠ°Π±ΠΈΡΡΠ΅ΠΌΡΠΉ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½, ΠΊΠΎΡΠΎΡΡΠΉ Π½Π° Π²ΡΡ ΠΎΠ΄Π΅ ΠΎΠΏΡΠ΅Π΄Π΅Π»ΡΠ΅Ρ Β«ΠΊΠ°ΡΠ΅ΡΡΠ²ΠΎΒ» ΠΎΠΌΠ»Π΅ΡΠ°. ΠΠΎΠ΄ΡΠΎΠ±Π½Π΅Π΅ ΡΡΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠΏΠΈΡΠ°ΡΡ ΡΠ»Π΅Π΄ΡΡΡΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ:
ΠΠ»Π°Π²Π½Π°Ρ ΡΠ΅Π»Ρ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π° β Π½Π°ΡΡΠΈΡΡΡΡ ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡΠΎΠ²Π°ΡΡ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΠΈΠΏΠΎΠ² ΡΠΈΠ³Π½Π°Π»ΠΎΠ² (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ Ρ ΡΠ°Π·Π½ΡΡ ΡΠ°ΠΊΡΡΡΠΎΠ², ΡΠ΅ΠΏΠ»ΠΎΠΊΠ°ΡΡΡ ΠΈ Ρ.Π΄.), ΠΏΠΎΠ»ΡΡΠΈΠ² ΠΏΡΠ΅Π΄Π²Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΡΠΆΠ°ΡΠΎΠ΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ΠΈΠ΅ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΈΠ· Π½ΠΈΡ ΠΈ ΠΏΡΠΎΠΏΡΡΡΠΈΠ² Π² Π΄Π°Π»ΡΠ½Π΅ΠΉΡΠ΅ΠΌ ΡΡΠΈ ΡΠΈΡΠΈ ΡΠ΅ΡΠ΅Π· Π½Π΅ΠΉΡΠΎΡΠ΅ΡΡ-ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΎΡ Π΄Π»Ρ ΠΈΡΠΎΠ³ΠΎΠ²ΠΎΠ³ΠΎ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΡ. Π’Π°ΠΊ, ΠΌΡ ΡΠΌΠΎΠΆΠ΅ΠΌ Π²ΠΎΠΏΠ»ΠΎΡΠΈΡΡ Π² ΠΆΠΈΠ·Π½Ρ Π½Π°Ρ ΠΏΡΠΎΡΠΎΡΠΈΠΏ ΠΈ ΡΠ΄Π΅Π»Π°ΡΡ Π΅Π³ΠΎ ΠΏΡΠ°ΠΊΡΠΈΡΠ΅ΡΠΊΠΈ ΠΏΡΠΈΠΌΠ΅Π½ΠΈΠΌΡΠΌ Π² Π΄Π°Π»ΡΠ½Π΅ΠΉΡΠ΅ΠΉ ΡΠ°Π±ΠΎΡΠ΅. ΠΠΈΠΆΠ΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½Ρ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½Π½ΡΡ Π² ΠΏΡΠΎΡΠΎΡΠΈΠΏΠ΅ ΡΠΈΠ³Π½Π°Π»ΠΎΠ²:
ΠΠ±ΡΠΈΠΉ Π²Π·Π³Π»ΡΠ΄ Π½Π° ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½
ΠΡΠΌΠ΅ΡΡ, ΡΡΠΎ ΠΌΠ½Π΅ ΠΏΡΠΈΠ΄Π΅ΡΡΡ ΠΏΡΠΎΠΏΡΡΡΠΈΡΡ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ Π²Π°ΠΆΠ½ΡΡ ΡΡΠ°ΠΏΠΎΠ², ΡΠ°ΠΊΠΈΡ ΠΊΠ°ΠΊ ΡΠ°Π·Π²Π΅Π΄ΠΎΡΠ½ΡΠΉ Π°Π½Π°Π»ΠΈΠ· Π΄Π°Π½Π½ΡΡ , ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΈΠ΅ Π±Π°Π·ΠΎΠ²ΠΎΠ³ΠΎ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΎΡΠ° ΠΈ active labeling (ΠΌΠ½ΠΎΡ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½Π½ΡΠΉ ΡΠ΅ΡΠΌΠΈΠ½, ΠΊΠΎΡΠΎΡΡΠΉ ΠΎΠ±ΠΎΠ·Π½Π°ΡΠ°Π΅Ρ ΠΏΠΎΠ»ΡΠ°Π²ΡΠΎΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΎΠ΅ Π°Π½Π½ΠΎΡΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ², Π²Π΄ΠΎΡ Π½ΠΎΠ²Π»Π΅Π½Π½ΡΠΉ Polygon-RNN Π΄Π΅ΠΌΠΎ-Π²ΠΈΠ΄Π΅ΠΎ) ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ Π΄Π»Ρ Mask R-CNN (ΠΏΠΎΠ΄ΡΠΎΠ±Π½Π΅Π΅ ΠΎΠ± ΡΡΠΎΠΌ Π² ΡΠ»Π΅Π΄ΡΡΡΠΈΡ ΠΏΠΎΡΡΠ°Ρ ).
ΠΠ·Π³Π»ΡΠ½Π΅ΠΌ Π½Π° Π²Π΅ΡΡ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ Π² ΡΠ΅Π»ΠΎΠΌ:
Π Π΄Π°Π½Π½ΠΎΠΉ ΡΡΠ°ΡΡΠ΅ Π½Π°Ρ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΡΡΡ ΡΡΠ°ΠΏΡ Mask R-CNN ΠΈ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ Π² ΡΠ°ΠΌΠΊΠ°Ρ
ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π°
ΠΠ°Π»Π΅Π΅ ΠΌΡ ΡΠ°ΡΡΠΌΠΎΡΡΠΈΠΌ ΡΡΠΈ ΡΡΠ°ΠΏΠ°: 1) ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ Mask R-CNN Π΄Π»Ρ ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΈΡ ΠΌΠ°ΡΠΎΠΊ ΠΈΠ½Π³ΡΠ΅Π΄ΠΈΠ΅Π½ΡΠΎΠ² ΠΎΠΌΠ»Π΅ΡΠ°; 2) ConvNet ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΎΡ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Keras; 3) Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·Π°ΡΠΈΡ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ t-SNE.
ΠΡΠ°ΠΏ 1: Mask R-CNN ΠΈ ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΈΠ΅ ΠΌΠ°ΡΠΎΠΊ
Mask R-CNN (MRCNN) Π² ΠΏΠΎΡΠ»Π΅Π΄Π½Π΅Π΅ Π²ΡΠ΅ΠΌΡ Π½Π°Ρ ΠΎΠ΄ΡΡΡΡ Π½Π° ΠΏΠΈΠΊΠ΅ ΠΏΠΎΠΏΡΠ»ΡΡΠ½ΠΎΡΡΠΈ. ΠΠ°ΡΠΈΠ½Π°Ρ ΠΎΡ ΠΈΡΡ ΠΎΠ΄Π½ΠΎΠΉ ΡΡΠ°ΡΡΠΈ Facebook-Π° ΠΈ Π·Π°ΠΊΠ°Π½ΡΠΈΠ²Π°Ρ Data Science Bowl 2018 Π½Π° Kaggle, Mask R-CNN Π·Π°ΡΠ΅ΠΊΠΎΠΌΠ΅Π½Π΄ΠΎΠ²Π°Π»Π° ΡΠ΅Π±Ρ ΠΊΠ°ΠΊ ΠΌΠΎΡΠ½Π°Ρ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ° Π΄Π»Ρ instance segmentation (Ρ.Π΅., Π½Π΅ ΡΠΎΠ»ΡΠΊΠΎ ΠΏΠΎΠΏΠΈΠΊΡΠ΅Π»ΡΠ½ΠΎΠΉ ΡΠ΅Π³ΠΌΠ΅Π½ΡΠ°ΡΠΈΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ, Π½ΠΎ ΠΈ ΠΎΡΠ΄Π΅Π»Π΅Π½ΠΈΡ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ², ΠΏΡΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°ΡΠΈΡ ΠΊ ΠΎΠ΄Π½ΠΎΠΌΡ ΠΊΠ»Π°ΡΡΡ). Π ΡΠΎΠΌΡ ΠΆΠ΅, ΠΎΠ΄Π½ΠΎ ΡΠ΄ΠΎΠ²ΠΎΠ»ΡΡΡΠ²ΠΈΠ΅ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ ΡΠ΅Π°Π»ΠΈΠ·Π°ΡΠΈΠ΅ΠΉ MRCNN ΠΎΡ Matterport Π² Keras. ΠΠΎΠ΄ ΠΎΡΠ»ΠΈΡΠ½ΠΎ ΡΡΡΡΠΊΡΡΡΠΈΡΠΎΠ²Π°Π½, ΠΈΠΌΠ΅Π΅Ρ Ρ ΠΎΡΠΎΡΡΡ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ°ΡΠΈΡ ΠΈ ΡΠ°Π±ΠΎΡΠ°Π΅Ρ ΠΏΡΡΠΌΠΎ ΠΈΠ· ΠΊΠΎΡΠΎΠ±ΠΊΠΈ, Ρ ΠΎΡΡ ΠΈ ΠΌΠ΅Π΄Π»Π΅Π½Π½Π΅Π΅, ΡΠ΅ΠΌ ΠΎΠΆΠΈΠ΄Π°Π»ΠΎΡΡ.
ΠΠ° ΠΏΡΠ°ΠΊΡΠΈΠΊΠ΅, ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎ ΠΏΡΠΈ ΡΠ°Π·ΡΠ°Π±ΠΎΡΠΊΠ΅ ΠΏΡΠΎΡΠΎΡΠΈΠΏΠ°, ΠΊΡΠΈΡΠΈΡΠ΅ΡΠΊΠΈ Π²Π°ΠΆΠ½ΠΎ ΠΈΠΌΠ΅ΡΡ ΠΏΡΠ΅Π΄ΠΎΠ±ΡΡΠ΅Π½Π½ΡΡ ΡΠ²ΡΡΡΠΎΡΠ½ΡΡ Π½Π΅ΠΉΡΠΎΡΠ΅ΡΡ. Π Π±ΠΎΠ»ΡΡΠΈΠ½ΡΡΠ²Π΅ ΡΠ»ΡΡΠ°Π΅Π² Π½Π°Π±ΠΎΡ ΡΠ°Π·ΠΌΠ΅ΡΠ΅Π½Π½ΡΡ Π΄Π°Π½Π½ΡΡ Ρ data scientist-Π° Π²Π΅ΡΡΠΌΠ° ΠΎΠ³ΡΠ°Π½ΠΈΡΠ΅Π½, Π»ΠΈΠ±ΠΎ Π΅Π³ΠΎ Π½Π΅Ρ ΡΠΎΠ²ΡΠ΅ΠΌ, Π² ΡΠΎ Π²ΡΠ΅ΠΌΡ ΠΊΠ°ΠΊ ConvNet ΡΡΠ΅Π±ΡΠ΅Ρ Π±ΠΎΠ»ΡΡΠΎΠ³ΠΎ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Π° ΡΠ°Π·ΠΌΠ΅ΡΠ΅Π½Π½ΡΡ Π΄Π°Π½Π½ΡΡ , ΡΡΠΎΠ±Ρ Π΄ΠΎΡΡΠΈΠ³Π½ΡΡΡ ΡΡ ΠΎΠ΄ΠΈΠΌΠΎΡΡΠΈ (ΡΠ°ΠΊ, Π½Π°Π±ΠΎΡ Π΄Π°Π½Π½ΡΡ ImageNet ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ 1,2 ΠΌΠ»Π½ ΡΠ°Π·ΠΌΠ΅ΡΠ΅Π½Π½ΡΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ). Π’ΡΡ Π½Π° ΠΏΠΎΠΌΠΎΡΡ ΠΏΡΠΈΡ ΠΎΠ΄ΠΈΡ transfer learning: ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ Π·Π°ΡΠΈΠΊΡΠΈΡΠΎΠ²Π°ΡΡ Π²Π΅ΡΠ° ΡΠ²ΡΡΡΠΎΡΠ½ΡΡ ΡΠ»ΠΎΠ΅Π² ΠΈ Π΄ΠΎΠΎΠ±ΡΡΠΈΡΡ Π»ΠΈΡΡ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΎΡ. Π€ΠΈΠΊΡΠΈΡΠΎΠ²Π°ΡΡ ΡΠ²ΡΡΡΠΎΡΠ½ΡΠ΅ ΡΠ»ΠΎΠΈ Π²Π°ΠΆΠ½ΠΎ Π΄Π»Ρ Π½Π΅Π±ΠΎΠ»ΡΡΠΈΡ Π΄Π°ΡΠ°ΡΠ΅ΡΠΎΠ², ΠΏΠΎΡΠΊΠΎΠ»ΡΠΊΡ ΡΠ°ΠΊΠ°Ρ ΡΠ΅Ρ Π½ΠΈΠΊΠ° ΠΏΡΠ΅Π΄ΠΎΡΠ²ΡΠ°ΡΠ°Π΅Ρ ΠΏΠ΅ΡΠ΅ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅.
ΠΠΎΡ ΡΡΠΎ Ρ ΠΏΠΎΠ»ΡΡΠΈΠ» ΠΏΠΎΡΠ»Π΅ ΠΏΠ΅ΡΠ²ΠΎΠΉ ΡΠΏΠΎΡ ΠΈ Π΄ΠΎΠΎΠ±ΡΡΠ΅Π½ΠΈΡ:
Π Π΅Π·ΡΠ»ΡΡΠ°Ρ ΡΠ΅Π³ΠΌΠ΅Π½ΡΠ°ΡΠΈΠΈ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ²: ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π½Ρ Π²ΡΠ΅ ΠΊΠ»ΡΡΠ΅Π²ΡΠ΅ ΠΈΠ½Π³ΡΠ΅Π΄ΠΈΠ΅Π½ΡΡ
ΠΠ° ΡΠ»Π΅Π΄ΡΡΡΠ΅ΠΌ ΡΡΠ°ΠΏΠ΅ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½Π° (Process Inferenced Data for Classifier) Π½Π΅ΠΎΠ±Ρ ΠΎΠ΄ΠΈΠΌΠΎ Π²ΡΡΠ΅Π·Π°ΡΡ ΡΡ ΡΠ°ΡΡΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ, ΠΊΠΎΡΠΎΡΠ°Ρ ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ ΡΠ°ΡΠ΅Π»ΠΊΡ, ΠΈ ΠΈΠ·Π²Π»Π΅ΡΡ Π΄Π²ΡΠΌΠ΅ΡΠ½ΡΡ Π±ΠΈΠ½Π°ΡΠ½ΡΡ ΠΌΠ°ΡΠΊΡ Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΈΠ½Π³ΡΠ΅Π΄ΠΈΠ΅Π½ΡΠ° Π½Π° ΡΡΠΎΠΉ ΡΠ°ΡΠ΅Π»ΠΊΠ΅:
ΠΡΠΎΠΏΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ Ρ ΠΊΠ»ΡΡΠ΅Π²ΡΠΌΠΈ ΠΈΠ½Π³ΡΠ΅Π΄ΠΈΠ΅Π½ΡΠ°ΠΌΠΈ Π² Π²ΠΈΠ΄Π΅ Π±ΠΈΠ½Π°ΡΠ½ΡΡ
ΠΌΠ°ΡΠΎΠΊ
ΠΡΠΈ Π±ΠΈΠ½Π°ΡΠ½ΡΠ΅ ΠΌΠ°ΡΠΊΠΈ Π·Π°ΡΠ΅ΠΌ ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡΡΡΡΡΡ Π² 8-ΠΊΠ°Π½Π°Π»ΡΠ½ΠΎΠ΅ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅ (ΠΏΠΎΡΠΊΠΎΠ»ΡΠΊΡ Ρ ΠΎΠΏΡΠ΅Π΄Π΅Π»ΠΈΠ» 8 ΠΊΠ»Π°ΡΡΠΎΠ² ΠΌΠ°ΡΠΎΠΊ Π΄Π»Ρ MRCNN), ΠΈ ΠΌΡ ΠΏΠΎΠ»ΡΡΠ°Π΅ΠΌ Π‘ΠΈΠ³Π½Π°Π» β1:
Π‘ΠΈΠ³Π½Π°Π» β1: 8-ΠΊΠ°Π½Π°Π»ΡΠ½ΠΎΠ΅ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅, ΡΠΎΡΡΠΎΡΡΠ΅Π΅ ΠΈΠ· Π±ΠΈΠ½Π°ΡΠ½ΡΡ
ΠΌΠ°ΡΠΎΠΊ. Π ΡΠ²Π΅ΡΠ΅ Π΄Π»Ρ Π»ΡΡΡΠ΅ΠΉ Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·Π°ΡΠΈΠΈ
Π§ΡΠΎΠ±Ρ ΠΏΠΎΠ»ΡΡΠΈΡΡ Π‘ΠΈΠ³Π½Π°Π» β2, Ρ ΠΏΠΎΡΡΠΈΡΠ°Π» ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΡΠ°Π·, ΠΊΠΎΡΠΎΡΠΎΠ΅ ΠΊΠ°ΠΆΠ΄ΡΠΉ ΠΈΠ½Π³ΡΠ΅Π΄ΠΈΠ΅Π½Ρ Π²ΡΡΡΠ΅ΡΠ°Π΅ΡΡΡ Π½Π° ΠΊΡΠΎΠΏΠ΅ ΡΠ°ΡΠ΅Π»ΠΊΠΈ ΠΈ ΠΏΠΎΠ»ΡΡΠΈΠ» Π½Π°Π±ΠΎΡ Π²Π΅ΠΊΡΠΎΡΠΎΠ²-ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΊΠ°ΠΆΠ΄ΡΠΉ ΠΈΠ· ΠΊΠΎΡΠΎΡΡΡ ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΠ΅Ρ ΡΠ²ΠΎΠ΅ΠΌΡ ΠΊΡΠΎΠΏΡ.
ΠΡΠ°ΠΏ 2: ConvNet ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΎΡ Π² Keras
CNN ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΎΡ Π±ΡΠ» ΡΠ΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½ Ρ Π½ΡΠ»Ρ, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ Keras. Π― Ρ ΠΎΡΠ΅Π» ΡΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡΠΎΠ²Π°ΡΡ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΠΈΠ³Π½Π°Π»ΠΎΠ² (Π‘ΠΈΠ³Π½Π°Π» β1 ΠΈ Π‘ΠΈΠ³Π½Π°Π» β2, Π° ΡΠ°ΠΊΠΆΠ΅ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΠ΅ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ΠΈΠ΅ Π΄Π°Π½Π½ΡΡ Π² Π±ΡΠ΄ΡΡΠ΅ΠΌ) ΠΈ ΠΏΠΎΠ·Π²ΠΎΠ»ΠΈΡΡ Π½Π΅ΠΉΡΠΎΡΠ΅ΡΠΈ ΠΏΠΎ Π½ΠΈΠΌ ΡΡΡΠΎΠΈΡΡ ΠΏΡΠΎΠ³Π½ΠΎΠ·Ρ ΠΎΡΠ½ΠΎΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° Π±Π»ΡΠ΄Π°. ΠΠΈΠΆΠ΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½Π½Π°Ρ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ° ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΏΡΠΎΠ±Π½ΠΎΠΉ ΠΈ Π΄Π°Π»Π΅ΠΊΠ° ΠΎΡ ΠΈΠ΄Π΅Π°Π»Π°:
ΠΠ΅ΡΠΊΠΎΠ»ΡΠΊΠΎ ΡΠ»ΠΎΠ² ΠΏΠΎ ΠΏΠΎΠ²ΠΎΠ΄Ρ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΡ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΎΡΠ°:
ΠΡΠ°ΠΏ 3: Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·Π°ΡΠΈΡ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠ² Ρ ΠΏΠΎΠΌΠΎΡΡΡ t-SNE
ΠΠ»Ρ Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·Π°ΡΠΈΠΈ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠ² ΡΠ°Π±ΠΎΡΡ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΎΡΠ° Π½Π° ΡΠ΅ΡΡΠΎΠ²ΡΡ Π΄Π°Π½Π½ΡΡ Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π» t-SNE β Π°Π»Π³ΠΎΡΠΈΡΠΌ, ΠΊΠΎΡΠΎΡΡΠΉ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΠΏΠ΅ΡΠ΅Π½Π΅ΡΡΠΈ ΠΈΡΡ ΠΎΠ΄Π½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅ Π² ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²ΠΎ ΠΌΠ΅Π½ΡΡΠ΅ΠΉ ΡΠ°Π·ΠΌΠ΅ΡΠ½ΠΎΡΡΠΈ (ΡΡΠΎΠ±Ρ ΠΏΠΎΠ½ΡΡΡ ΠΏΡΠΈΠ½ΡΠΈΠΏ ΡΠ°Π±ΠΎΡΡ Π°Π»Π³ΠΎΡΠΈΡΠΌΠ°, ΡΠ΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡΡ ΠΏΡΠΎΡΠΈΡΠ°ΡΡ ΡΡΠ°ΡΡΡ-ΠΏΠ΅ΡΠ²ΠΎΠΈΡΡΠΎΡΠ½ΠΈΠΊ, ΠΎΠ½Π° ΡΡΠ΅Π·Π²ΡΡΠ°ΠΉΠ½ΠΎ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠ²Π½Π° ΠΈ Ρ ΠΎΡΠΎΡΠΎ Π½Π°ΠΏΠΈΡΠ°Π½Π°).
ΠΠ΅ΡΠ΅Π΄ Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·Π°ΡΠΈΠ΅ΠΉ Ρ Π²Π·ΡΠ» ΡΠ΅ΡΡΠΎΠ²ΡΠ΅ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ, ΠΈΠ·Π²Π»Π΅ΠΊ Π»ΠΎΠ³ΠΈΡ-ΡΠ»ΠΎΠΉ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΎΡΠ° ΠΈ ΠΏΡΠΈΠΌΠ΅Π½ΠΈΠ» ΠΊ Π΄Π°Π½Π½ΠΎΠΌΡ Π΄Π°ΡΠ°ΡΠ΅ΡΡ Π°Π»Π³ΠΎΡΠΈΡΠΌ t-SNE. Π₯ΠΎΡΡ Ρ ΠΈ Π½Π΅ ΠΏΡΠΎΠ±ΠΎΠ²Π°Π» ΡΠ°Π·Π»ΠΈΡΠ½ΡΠ΅ Π·Π½Π°ΡΠ΅Π½ΠΈΡ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ° ΠΏΠ΅ΡΠΏΠ»Π΅ΠΊΡΠΈΠΈ, ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ Π²ΡΠ΅ ΡΠ°Π²Π½ΠΎ Π²ΡΠ³Π»ΡΠ΄ΠΈΡ Π²ΠΏΠΎΠ»Π½Π΅ Π½Π΅ΠΏΠ»ΠΎΡ ΠΎ:
Π Π΅Π·ΡΠ»ΡΡΠ°Ρ ΡΠ°Π±ΠΎΡΡ t-SNE Π½Π° ΡΠ΅ΡΡΠΎΠ²ΡΡ
Π΄Π°Π½Π½ΡΡ
Ρ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΡΠΌΠΈ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΎΡΠ°
ΠΠΎΠ½Π΅ΡΠ½ΠΎ, Π΄Π°Π½Π½ΡΠΉ ΠΏΠΎΠ΄Ρ ΠΎΠ΄ Π½Π΅ΠΈΠ΄Π΅Π°Π»Π΅Π½, ΠΎΠ΄Π½Π°ΠΊΠΎ ΠΎΠ½ ΡΠ°Π±ΠΎΡΠ°Π΅Ρ. ΠΡΠΈ ΡΡΠΎΠΌ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΡΡ ΡΠ»ΡΡΡΠ΅Π½ΠΈΠΉ ΠΌΠΎΠΆΠ΅Ρ Π±ΡΡΡ Π΄ΠΎΠ²ΠΎΠ»ΡΠ½ΠΎ ΠΌΠ½ΠΎΠ³ΠΎ:
ΠΠ°ΡΠ½ΠΈΡΠ΅ Ρ ΠΌΠ°Π»ΠΎΠ³ΠΎ: ΡΠ°Π±ΠΎΡΠ°ΡΡΠΈΠΉ ΠΏΡΠΎΡΠΎΡΠΈΠΏ ΠΌΠΎΠΆΠ½ΠΎ ΡΠΎΠ·Π΄Π°ΡΡ ΠΈΠ· Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΡ ΠΈΠ³ΡΡΡΠ΅ΡΠ½ΡΡ Π±Π»ΠΎΠΊΠΎΠ² ΠΊΠΎΠ΄Π°, ΠΈ ΠΎΠ½ Π² ΡΠ°Π·Ρ ΡΠ²Π΅Π»ΠΈΡΠΈΡ ΠΏΡΠΎΠ΄ΡΠΊΡΠΈΠ²Π½ΠΎΡΡΡ Π΄Π°Π»ΡΠ½Π΅ΠΉΡΠΈΡ Π±Π΅ΡΠ΅Π΄ Ρ ΡΡΠΊΠΎΠ²ΠΎΠ΄ΡΡΠ²ΠΎΠΌ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ. Π ΡΡΠΎΠΌ ΠΈ Π·Π°ΠΊΠ»ΡΡΠ°Π΅ΡΡΡ ΡΠ°Π±ΠΎΡΠ° data scientist-Π° β ΠΏΡΠ΅Π΄Π»Π°Π³Π°ΡΡ Π±ΠΈΠ·Π½Π΅ΡΡ Π½ΠΎΠ²ΡΠ΅ ΠΏΠΎΠ΄Ρ ΠΎΠ΄Ρ ΠΈ ΠΈΠ΄Π΅ΠΈ.
20 ΡΠ΅Π½ΡΡΠ±ΡΡ 2018 ΡΡΠ°ΡΡΡΠ΅Ρ βΠ‘ΠΏΠ΅ΡΠΈΠ°Π»ΠΈΡΡ ΠΏΠΎ Π±ΠΎΠ»ΡΡΠΈΠΌ Π΄Π°Π½Π½ΡΠΌ 9.0β, Π³Π΄Π΅ Π²Ρ, ΠΏΠΎΠΌΠΈΠΌΠΎ Π²ΡΠ΅Π³ΠΎ ΠΏΡΠΎΡΠ΅Π³ΠΎ, Π½Π°ΡΡΠΈΡΠ΅ΡΡ Π²ΠΈΠ·ΡΠ°Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°ΡΡ Π΄Π°Π½Π½ΡΠ΅ ΠΈ ΠΏΠΎΠ½ΠΈΠΌΠ°ΡΡ Π±ΠΈΠ·Π½Π΅Ρ-Π»ΠΎΠ³ΠΈΠΊΡ, ΡΠΊΡΡΠ²Π°ΡΡΡΡΡΡ Π·Π° ΡΠΎΠΉ ΠΈΠ»ΠΈ ΠΈΠ½ΠΎΠΉ Π·Π°Π΄Π°ΡΠ΅ΠΉ, ΡΡΠΎ ΠΏΠΎΠΌΠΎΠΆΠ΅Ρ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½Π΅Π΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΡΡ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ Π²Π°ΡΠ΅ΠΉ ΡΠ°Π±ΠΎΡΡ ΠΊΠΎΠ»Π»Π΅Π³Π°ΠΌ ΠΈ ΡΡΠΊΠΎΠ²ΠΎΠ΄ΡΡΠ²Ρ.
Mask R-CNN ΠΎΡ Π½ΠΎΠ²ΠΈΡΠΊΠ° Π΄ΠΎ ΠΏΡΠΎΡΠ΅ΡΡΠΈΠΎΠ½Π°Π»Π°
ΠΠ΄Π½Π°ΠΆΠ΄Ρ ΠΌΠ½Π΅ ΠΏΠΎΡΡΠ΅Π±ΠΎΠ²Π°Π»ΠΎΡΡ Π°Π½Π°Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°ΡΡ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΡ Ρ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ ΠΈ Π½Π° Π²ΡΡ ΠΎΠ΄Π΅ ΠΈΠΌΠ΅ΡΡ ΡΠΈΠΏ ΠΎΠ±ΡΠ΅ΠΊΡΠ°, Π΅Π³ΠΎ Π²ΠΈΠ΄, Π° ΡΠ°ΠΊΠΆΠ΅, Π°Π½Π°Π»ΠΈΠ·ΠΈΡΡΡ ΡΠΎΠ²ΠΎΠΊΡΠΏΠ½ΠΎΡΡΡ ΠΊΠ°Π΄ΡΠΎΠ², ΠΌΠ½Π΅ Π½ΡΠΆΠ½ΠΎ Π±ΡΠ»ΠΎ Π²ΡΠ΄Π°ΡΡ ΠΈΠ΄Π΅Π½ΡΠΈΡΠΈΠΊΠ°ΡΠΎΡ ΠΎΠ±ΡΠ΅ΠΊΡΠ° ΠΈ Π²ΡΠ΅ΠΌΡ ΠΏΡΠ΅Π±ΡΠ²Π°Π½ΠΈΡ Π² ΠΊΠ°Π΄ΡΠ΅, Π±ΡΠ»ΠΎ Π½ΡΠΆΠ½ΠΎ ΠΎΠΏΡΠ΅Π΄Π΅Π»ΡΡΡ ΠΊΠ°ΠΊ ΠΏΠ΅ΡΠ΅ΠΌΠ΅ΡΠ°Π»ΡΡ ΠΎΠ±ΡΠ΅ΠΊΡ ΠΈ Π² ΠΏΠΎΠ»Π΅ Π·ΡΠ΅Π½ΠΈΡ ΠΊΠ°ΠΊΠΈΡ ΠΊΠ°ΠΌΠ΅Ρ ΠΏΠΎΠΏΠ°Π΄Π°Π». ΠΠ°ΡΠ½Π΅ΠΌ, ΠΏΠΎΠΆΠ°Π»ΡΠΉ, Ρ ΠΏΠ΅ΡΠ²ΡΡ Π΄Π²ΡΡ , ΠΎ Π°Π½Π°Π»ΠΈΠ·Π΅ ΠΊΠ°Π΄ΡΠΎΠ² Π² ΡΠΎΠ²ΠΎΠΊΡΠΏΠ½ΠΎΡΡΠΈ ΡΠ΅ΡΡ ΠΏΠΎΠΉΠ΄Π΅Ρ Π² ΡΠ»Π΅Π΄ΡΡΡΠ΅ΠΉ ΡΠ°ΡΡΠΈ.
ΠΡ ΡΠ°ΠΊ ΡΠ°ΡΠΏΠΈΡΠ΅ΠΌ ΠΏΠΎΠ΄ΡΠΎΠ±Π½Π΅Π΅ Π½Π°ΡΠΈ Π·Π°Π΄Π°ΡΠΈ:
ΠΠΊ, ΠΏΠΎΠ΄ΡΠΌΠ°Π» Ρ, ΠΈ Π²Π·ΡΠ» Π² ΡΡΠΊΠΈ ΡΠΎΠ»ΡΡΡΡ Π·ΠΌΠ΅Ρ, python, Π·Π½Π°ΡΠΈΡΡΡ. ΠΡΠ»ΠΎ ΡΠ΅ΡΠ΅Π½ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ Π½Π΅ΠΉΡΠΎΠ½Π½ΡΡ ΡΠ΅ΡΠΊΡ Mask R-Cnn Π² ΡΠ²ΡΠ·ΠΈ Ρ Π΅Π΅ ΠΏΡΠΎΡΡΠΎΡΠΎΠΉ ΠΈ ΡΠΎΠ²ΡΠ΅ΠΌΠ΅Π½Π½ΡΠΌΠΈ Ρ Π°ΡΠ°ΠΊΡΠ΅ΡΠΈΡΡΠΈΠΊΠ°ΠΌΠΈ. Π’Π°ΠΊΠΆΠ΅, ΡΠ°Π·ΡΠΌΠ΅Π΅ΡΡΡ, Π΄Π»Ρ ΠΌΠ°Π½ΠΈΠΏΡΠ»ΡΡΠΈΡ Ρ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡΠΌΠΈ Π±ΡΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ OpenCV.
Π£ΡΡΠ°Π½ΠΎΠ²ΠΊΠ° ΡΡΠ΅Π΄Ρ
ΠΡΠ΄Π΅ΠΌ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ Windows 10, ΠΈΠ·-Π·Π° ΡΠΎΠ³ΠΎ, ΡΡΠΎ ΡΡ Π²Π΅ΡΠΎΡΡΠ½Π΅Π΅ Π²ΡΠ΅Π³ΠΎ, ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡ ΠΈΠΌΠ΅Π½Π½ΠΎ Π΅Π΅.
ΠΠΎΠ΄ΡΠ°Π·ΡΠΌΠ΅Π²Π°Π΅ΡΡΡ, ΡΡΠΎ Ρ ΡΠ΅Π±Ρ ΡΠΆΠ΅ ΠΏΡΠΈΡΡΡΡΡΠ²ΡΠ΅Ρ 64 Π±ΠΈΡΠ½ΡΠΉ Python. ΠΡΠ»ΠΈ ΠΆΠ΅ Π½Π΅Ρ, ΡΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΡΠΊΠ°ΡΠ°ΡΡ ΠΏΠ°ΠΊΠ΅Ρ, Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ, ΠΎΡΡΡΠ΄Π°
Π£ΡΡΠ°Π½ΠΎΠ²ΠΊΠ° ΠΏΠ°ΠΊΠ΅ΡΠΎΠ²
ΠΡΠ»ΠΈ ΠΏΠΎ ΠΊΠ°ΠΊΠΎΠΉ-ΡΠΎ ΠΏΡΠΈΡΠΈΠ½Π΅ Π½Π΅ ΡΠ΄Π°Π΅ΡΡΡ ΡΠΎΠ±ΡΠ°ΡΡ ΠΈΠ· ΠΈΡΡ ΠΎΠ΄Π½ΠΈΠΊΠΎΠ², ΡΡΡΠ΅ΡΡΠ²ΡΠ΅Ρ Π²Π΅ΡΡΠΈΡ ΠΈΠ· pip:
Π ΠΏΠ°ΠΊΠ΅ΡΡ, ΡΠ°Π·ΡΠΌΠ΅Π΅ΡΡΡ, ΠΏΠΎΡΡΠ°Π²ΡΡΡΡ Π²ΡΠ΅ Π·Π°Π²ΠΈΡΠΈΠΌΠΎΡΡΠΈ.
ΠΡΠ°ΠΏ 1. Π‘ΠΎΠ·Π΄Π°Π½ΠΈΠ΅ ΠΏΡΠΎΡΡΠ΅ΠΉΡΠ΅ΠΉ ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΡ-ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π²Π°ΡΠ΅Π»Ρ.
Π‘Π΄Π΅Π»Π°Π΅ΠΌ Π½Π΅ΠΎΠ±Ρ ΠΎΠ΄ΠΈΠΌΡΠ΅ ΠΈΠΌΠΏΠΎΡΡΡ
ΠΠ΅ΠΉΡΠΎΡΠ΅ΡΡ ΡΡΠ΅Π±ΡΠ΅Ρ ΡΠΎΠ·Π΄Π°Π½ΠΈΡ ΠΊΠΎΠ½ΡΠΈΠ³Π° Ρ ΠΏΠ΅ΡΠ΅ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½Π½ΡΠΌΠΈ ΠΏΠΎΠ»ΡΠΌΠΈ
Π£ΠΊΠ°ΠΆΠ΅ΠΌ ΡΠ°ΡΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΡΠ°ΠΉΠ»Π° Ρ Π²Π΅ΡΠ°ΠΌΠΈ. ΠΡΡΡΡ Π² Π΄Π°Π½Π½ΠΎΠΌ ΠΏΡΠΈΠΌΠ΅ΡΠ΅ ΠΎΠ½ Π±ΡΠ΄Π΅Ρ Π»Π΅ΠΆΠ°ΡΡ Π² ΠΏΠ°ΠΏΠΊΠ΅ Ρ ΡΡΠΈΠΌ ΡΠ°ΠΉΠ»ΠΎΠΌ. ΠΡΠ»ΠΈ Π΅Π³ΠΎ Π½Π΅Ρ, ΡΠΎ ΠΎΠ½ ΡΠΊΠ°ΡΠ°Π΅ΡΡΡ.
Π‘ΠΎΠ·Π΄Π°Π΄ΠΈΠΌ Π½Π°ΡΡ ΠΌΠΎΠ΄Π΅Π»Ρ Ρ Π½Π°ΡΡΡΠΎΠΉΠΊΠ°ΠΌΠΈ Π²ΡΡΠ΅
Π ΠΏΠΎΠΆΠ°Π»ΡΠΉ, Π½Π°ΡΠ½Π΅ΠΌ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΡ Π²ΡΠ΅Ρ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ Π² ΠΊΠ°ΡΠ°Π»ΠΎΠ³Π΅ images Π² ΡΠ΅ΠΊΡΡΠ΅ΠΉ Π΄ΠΈΡΠ΅ΠΊΡΠΎΡΠΈΠΈ.
Π§ΡΠΎ ΠΆΠ΅ ΠΌΡ ΡΠ²ΠΈΠ΄ΠΈΠΌ Π² detections?
ΠΠ°ΠΏΡΠΈΠΌΠ΅Ρ, ΡΡΠΎ-ΡΠΎ ΠΏΠΎΡ ΠΎΠΆΠ΅Π΅:
Π Π΄Π°Π½Π½ΠΎΠΌ ΡΠ»ΡΡΠ°Π΅ Π½Π°ΡΠ»ΠΈ 2 ΠΎΠ±ΡΠ΅ΠΊΡΠ°.
rois β ΠΌΠ°ΡΡΠΈΠ²Ρ ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°Ρ Π»Π΅Π²ΠΎΠ³ΠΎ Π½ΠΈΠΆΠ½Π΅Π³ΠΎ ΠΈ ΠΏΡΠ°Π²ΠΎΠ³ΠΎ Π²Π΅ΡΡ
Π½Π΅Π³ΠΎ ΡΠ³Π»Π°
class_ids β ΡΠΈΡΠ»ΠΎΠ²ΡΠ΅ ΠΈΠ΄Π΅Π½ΡΠΈΡΠΈΠΊΠ°ΡΠΎΡΡ Π½Π°ΠΉΠ΄Π΅Π½Π½ΡΡ
ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ², ΠΏΠΎΠΊΠ° Π½Π°ΠΌ Π½ΡΠΆΠ½ΠΎ Π·Π½Π°ΡΡ, ΡΡΠΎ 1 β ΡΠ΅Π»ΠΎΠ²Π΅ΠΊ, 3 β ΠΌΠ°ΡΠΈΠ½Π°, 8 β Π³ΡΡΠ·ΠΎΠ²ΠΈΠΊ.
scores β Π½Π°ΡΠΊΠΎΠ»ΡΠΊΠΎ ΠΌΠΎΠ΄Π΅Π»Ρ ΡΠ²Π΅ΡΠ΅Π½Π° Π² ΡΠ΅ΡΠ΅Π½ΠΈΠΈ, ΡΡΠΎΡ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΡΡΠ΅ΠΈΠ²Π°ΡΡ ΡΠ΅ΡΠ΅Π· DETECTION_MIN_CONFIDENCE Π² ΠΊΠΎΠ½ΡΠΈΠ³Π΅, ΠΎΡΡΠ΅ΠΊΠ°Ρ Π²ΡΠ΅ Π½Π΅ΠΏΠΎΠ΄Ρ
ΠΎΠ΄ΡΡΠΈΠ΅ Π²Π°ΡΠΈΠ°Π½ΡΡ.
masks β ΠΊΠΎΠ½ΡΡΡ ΠΎΠ±ΡΠ΅ΠΊΡΠ°. ΠΠ°Π½Π½ΡΠ΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡΡΡΡ Π΄Π»Ρ ΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ ΠΌΠ°ΡΠΊΠΈ ΠΎΠ±ΡΠ΅ΠΊΡΠ°. Π’.ΠΊ. ΠΎΠ½ΠΈ Π΄ΠΎΡΡΠ°ΡΠΎΡΠ½ΠΎ ΠΎΠ±ΡΠ΅ΠΌΠ½Ρ, ΠΈ Π½Π΅ ΠΏΡΠ΅Π΄Π½Π°Π·Π½Π°ΡΠ΅Π½Ρ Π΄Π»Ρ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΡ ΡΠ΅Π»ΠΎΠ²Π΅ΠΊΠΎΠΌ, ΠΏΡΠΈΠ²ΠΎΠ΄ΠΈΡΡ Π² ΡΡΠ°ΡΡΠ΅ ΠΈΡ
Π½Π΅ Π±ΡΠ΄Ρ.
ΠΠΊ, ΠΌΡ ΠΌΠΎΠ³Π»ΠΈ Π±Ρ Π½Π° ΡΡΠΎΠΌ ΠΎΡΡΠ°Π½ΠΎΠ²ΠΈΡΡΡΡ, Π½ΠΎ ΠΌΡ ΠΆΠ΅ Ρ ΠΎΡΠΈΠΌ ΠΏΠΎΡΠΌΠΎΡΡΠ΅ΡΡ Π½Π° ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅, ΠΊΠΎΡΠΎΡΠΎΠ΅ ΠΎΠ±ΡΡΠ½ΠΎ Π²ΡΠ΄Π°ΡΡ Π³Π°ΠΉΠ΄Ρ ΠΏΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ Π½Π΅ΠΉΡΠΎΡΠ΅ΡΠΎΠΊ Ρ ΠΊΡΠ°ΡΠΈΠ²ΠΎ Π²ΡΠ΄Π΅Π»Π΅Π½Π½ΡΠΌΠΈ ΠΎΠ±ΡΠ΅ΠΊΡΠ°ΠΌΠΈ?
Π€ΡΠ½ΠΊΡΠΈΡ Π±ΡΠ΄Π΅Ρ ΠΏΡΠΈΠ½ΠΈΠΌΠ°ΡΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅, ΠΈ ΠΎΡΠ½ΠΎΠ²Π½ΡΠ΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΡ, ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠ΅ ΠΈΠ· ΡΠ»ΠΎΠ²Π°ΡΡ ΠΈΠ· ΠΏΠ΅ΡΠ²ΡΡ ΡΠ°Π³ΠΎΠ².
Π₯ΠΎΡΡ ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ· ΠΎΡΠ½ΠΎΠ²Π½ΡΡ ΠΏΡΠ΅ΠΈΠΌΡΡΠ΅ΡΡΠ² ΡΡΠΎΠΉ Π½Π΅ΠΉΡΠΎΠ½Π½ΠΎΠΉ ΡΠ΅ΡΠΈ ΡΠ²Π»ΡΠ΅ΡΡΡ ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ Π·Π°Π΄Π°Ρ Instance segmentation β ΠΏΠΎΠ»ΡΡΠ΅Π½ΠΈΠ΅ ΠΊΠΎΠ½ΡΡΡΠΎΠ² ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ², ΠΌΡ ΠΏΠΎΠΊΠ° ΡΡΠΈΠΌ Π½Π΅ Π²ΠΎΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΈΡΡ, ΡΠ°Π·Π±Π΅ΡΠ΅ΠΌ ΡΡΠΎ.
ΠΠ»Ρ ΡΠ΅Π°Π»ΠΈΠ·Π°ΡΠΈΠΈ ΠΌΠ°ΡΠΎΠΊ Π΄ΠΎΠ±Π°Π²ΠΈΠΌ ΠΏΠ°ΡΡ ΡΡΡΠΎΡΠ΅ΠΊ ΠΏΠ΅ΡΠ΅Π΄ ΠΎΡΡΠΈΡΠΎΠ²ΠΊΠΎΠΉ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊΠ° Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π½Π°ΠΉΠ΄Π΅Π½Π½ΠΎΠ³ΠΎ ΠΎΠ±ΡΠ΅ΠΊΡΠ°.
Π Π΅Π·ΡΠ»ΡΡΠ°Ρ:
ΠΡΠ°ΠΏ II. ΠΠ΅ΡΠ²ΡΠ΅ ΡΡΠΏΠ΅Ρ ΠΈ. Π Π°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΠ΅ Π½ΠΎΠΌΠ΅ΡΠΎΠ² ΠΌΠ°ΡΠΈΠ½.
ΠΠ»Ρ ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΡ Π½Π°ΠΌ Π½ΡΠΆΠ΅Π½ ΡΠ΅ΡΠΊΠΈΠΉ ΠΊΠ°Π΄Ρ ΠΌΠ°ΡΠΈΠ½Ρ Π²Π±Π»ΠΈΠ·ΠΈ, ΠΏΠΎΡΡΠΎΠΌΡ Π±ΡΠ»ΠΎ ΡΠ΅ΡΠ΅Π½ΠΎ Π±ΡΠ°ΡΡ ΡΠΎΠ»ΡΠΊΠΎ ΠΊΠ°Π΄ΡΡ Ρ ΠΠΠ, Π° ΠΏΠΎΡΠΎΠΌ ΡΡΠ°Π²Π½ΠΈΠ²Π°ΡΡ Π½Π° ΠΏΠΎΡ ΠΎΠΆΠ΅ΡΡΡ(ΠΎΠ± ΡΡΠΎΠΌ Π² ΡΠ»Π΅Π΄ΡΡΡΠ΅ΠΉ Π³Π»Π°Π²Π΅). ΠΡΠΎΡ ΡΠΏΠΎΡΠΎΠ±, ΠΏΡΠ°Π²Π΄Π°, Π΄Π°Π΅Ρ ΡΠ»ΠΈΡΠΊΠΎΠΌ Π±ΠΎΠ»ΡΡΡΡ Π½Π΅ΡΠΎΡΠ½ΠΎΡΡΡ, Ρ.ΠΊ. ΠΌΠ°ΡΠΈΠ½Ρ ΠΌΠΎΠ³ΡΡ Π±ΡΡΡ ΠΎΡΠ΅Π½Ρ ΠΏΠΎΡ ΠΎΠΆΠΈΠΌΠΈ Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΠΎ ΠΈ ΠΌΠΎΠΉ Π°Π»Π³ΠΎΡΠΈΡΠΌ ΠΏΠΎΠΊΠ° Π½Π΅ ΠΌΠΎΠΆΠ΅Ρ ΠΈΠ·Π±Π΅Π³Π°ΡΡ ΡΠ°ΠΊΠΈΠ΅ ΡΠΈΡΡΠ°ΡΠΈΠΈ.
ΠΡΠ»ΠΎ ΡΠ΅ΡΠ΅Π½ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ Π³ΠΎΡΠΎΠ²ΡΡ Π»ΠΈΠ±Ρ ΠΎΡ ΡΠΊΡΠ°ΠΈΠ½ΡΠΊΠΎΠ³ΠΎ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»Ρ nomeroff-net (Π½Π΅ ΡΠ΅ΠΊΠ»Π°ΠΌΠ°). Π’.ΠΊ. ΠΏΠΎΡΡΠΈ Π²Π΅ΡΡ ΠΊΠΎΠ΄ ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡΠΈ Π² ΠΏΡΠΈΠΌΠ΅ΡΠ°Ρ ΠΊ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΡΠΎ ΠΏΡΠΈΠ²ΠΎΠ΄ΠΈΡΡ ΠΏΠΎΠ»Π½ΠΎΠ΅ ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ Π½Π΅ Π±ΡΠ΄Ρ.
Π‘ΠΊΠ°ΠΆΡ Π»ΠΈΡΡ, ΡΡΠΎ ΡΡΡ ΡΡΠ½ΠΊΡΠΈΡ ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΏΡΡΠΊΠ°ΡΡ Ρ ΠΈΡΡ ΠΎΠ΄Π½ΡΠΌ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅ΠΌ ΠΈΠ»ΠΈ ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π½Π½ΡΡ ΠΌΠ°ΡΠΈΠ½Ρ ΠΌΠΎΠΆΠ½ΠΎ Π²ΡΡΠ΅Π·Π°ΡΡ ΠΈΠ· ΠΊΠ°Π΄ΡΠ° ΠΈ ΠΏΠΎΠ΄Π°ΡΡ Π² ΡΡΡ ΡΡΠ½ΠΊΡΠΈΡ.
ΠΡΠ°ΠΏ III. ΠΠΏΠΎΠ·Π½Π°Π΅ΠΌ ΠΎΠ±ΡΠ΅ΠΊΡΡ Π½Π° ΡΡ ΠΎΠΆΠ΅ΡΡΡ.
Π’Π΅ΠΏΠ΅ΡΡ Π½Π°ΠΌ Π½ΡΠΆΠ½ΠΎ ΠΏΠΎΠ½ΡΡΡ ΠΊΠ°ΠΊ ΡΠΈΠΊΡΠΈΡΡΡ ΠΎΠ±ΡΠ΅ΠΊΡ ΠΎΠ΄Π½Π°ΠΆΠ΄Ρ, ΠΏΠΎΠ½ΠΈΠΌΠ°ΡΡ, ΡΡΠΎ ΡΡΠΎ ΠΈΠΌΠ΅Π½Π½ΠΎ ΠΎΠ½ Π½Π° ΡΠΎΡΠ΅Π΄Π½Π΅ΠΌ ΠΊΠ°Π΄ΡΠ΅. ΠΠ° Π΄Π°Π½Π½ΠΎΠΌ ΡΡΠ°ΠΏΠ΅ Π±ΡΠ΄Π΅ΠΌ ΡΡΠΈΡΠ°ΡΡ, ΡΡΠΎ Ρ Π½Π°Ρ Π²ΡΠ΅Π³ΠΎ Π»ΠΈΡΡ ΠΎΠ΄Π½Π° ΠΊΠ°ΠΌΠ΅ΡΠ° ΠΈ Π±ΡΠ΄Π΅ΠΌ ΡΠ°Π·Π»ΠΈΡΠ°ΡΡ ΡΠΎΠ»ΡΠΊΠΎ ΡΠ°Π·Π½ΡΠ΅ ΠΊΠ°Π΄ΡΡ Ρ Π½Π΅Π΅.
ΠΠ»Ρ ΡΡΠΎΠ³ΠΎ Π½ΡΠΆΠ½ΠΎ ΡΠ·Π½Π°ΡΡ ΠΊΠ°ΠΊ ΠΌΡ Π±ΡΠ΄Π΅ΠΌ ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΡΡ ΡΡΠ°Π²Π½Π΅Π½ΠΈΠ΅ Π΄Π²ΡΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ².
ΠΡΠ΅Π΄Π»ΠΎΠΆΡ Π΄Π»Ρ ΡΡΠΈΡ ΡΠ΅Π»Π΅ΠΉ sift Π°Π»Π³ΠΎΡΠΈΡΠΌ. ΠΠ³ΠΎΠ²ΠΎΡΠΈΠΌΡΡ, ΡΡΠΎ ΠΎΠ½ Π½Π΅ Π²Ρ ΠΎΠ΄ΠΈΡ Π² ΠΎΡΠ½ΠΎΠ²Π½ΡΡ ΡΠ°ΡΡΡ OpenCV, ΠΏΠΎΡΡΠΎΠΌΡ Π½Π°ΠΌ Π½Π΅ΠΎΠ±Ρ ΠΎΠ΄ΠΈΠΌΠΎ Π΄ΠΎΡΡΠ°Π²ΠΈΡΡ contrib ΠΌΠΎΠ΄ΡΠ»ΠΈ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΠΎ. Π ΡΠΎΠΆΠ°Π»Π΅Π½ΠΈΡ, Π°Π»Π³ΠΎΡΠΈΡΠΌ Π·Π°ΠΏΠ°ΡΠ΅Π½ΡΠΎΠ²Π°Π½ ΠΈ Π΅Π³ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ Π² ΠΊΠΎΠΌΠΌΠ΅ΡΡΠ΅ΡΠΊΠΈΡ ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΠ°Ρ ΠΎΠ³ΡΠ°Π½ΠΈΡΠ΅Π½ΠΎ. ΠΠΎ ΠΌΡ Π½Π°ΡΠ΅Π»Π΅Π½Ρ Π½Π° Π½Π°ΡΡΠ½ΠΎ-ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΡΠΊΡΡ Π΄Π΅ΡΡΠ΅Π»ΡΠ½ΠΎΡΡΡ, Π½Π΅ ΡΠ°ΠΊ Π»ΠΈ?
ΠΠΈΡΠ΅ΠΌ ΡΡΠ½ΠΊΡΠΈΡ, ΠΏΡΠΈΠ½ΠΈΠΌΠ°ΡΡΡΡ 2 ΡΡΠ°Π²Π½ΠΈΠ²Π°Π΅ΠΌΡΡ ΠΎΠ±ΡΠ΅ΠΊΡΠ° Π² Π²ΠΈΠ΄Π΅ ΠΌΠ°ΡΡΠΈΡ. ΠΠ°ΠΏΡΠΈΠΌΠ΅Ρ, ΠΌΡ ΠΈΡ ΠΏΠΎΠ»ΡΡΠ°Π΅ΠΌ ΠΏΠΎΡΠ»Π΅ Π²ΡΠ·ΠΎΠ²Π° ΡΡΠ½ΠΊΡΠΈΠΈ cv2.open(path)
ΠΠ°ΠΏΠΈΡΠ΅ΠΌ ΡΠ΅Π°Π»ΠΈΠ·Π°ΡΠΈΡ Π½Π°ΡΠ΅Π³ΠΎ Π°Π»Π³ΠΎΡΠΈΡΠΌΠ°.
ΠΠ°Ρ ΠΎΠ΄ΠΈΠΌ ΠΊΠ»ΡΡΠ΅Π²ΡΠ΅ ΡΠΎΡΠΊΠΈ ΠΈ Π΄Π΅ΡΠΊΡΠΈΠΏΡΠΎΡΡ Ρ ΠΏΠΎΠΌΠΎΡΡΡ SIFT. ΠΠΎΠΆΠ°Π»ΡΠΉ, Ρ Π΅Π»ΠΏ Π΄Π»Ρ ΡΡΠΈΡ ΡΡΠ½ΠΊΡΠΈΠΉ ΠΏΡΠΈΠ²ΠΎΠ΄ΠΈΡΡ Π½Π΅ Π±ΡΠ΄Ρ, Π²Π΅Π΄Ρ Π΅Π³ΠΎ Π²ΡΠ΅Π³Π΄Π° Π΅Π³ΠΎ ΠΌΠΎΠΆΠ½ΠΎ Π²ΡΠ·Π²Π°ΡΡ Π² ΠΈΠ½ΡΠ΅ΡΠ°ΠΊΡΠΈΠ²Π½ΠΎΠΉ ΠΎΠ±ΠΎΠ»ΠΎΡΠΊΠ΅ ΠΊΠ°ΠΊ help(somefunc)
ΠΠ°ΡΡΡΠΎΠΈΠΌ Π½Π°Ρ Π°Π»Π³ΠΎΡΠΈΡΠΌ.
Π’Π΅ΠΏΠ΅ΡΡ Π·Π°ΠΏΡΡΡΠΈΠΌ Π΅Π³ΠΎ.
ΠΠΎΡΡΠΈΡΠ°Π΅ΠΌ ΡΡ ΠΎΠ΄ΡΡΠ²Π° ΠΌΠ΅ΠΆΠ΄Ρ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡΠΌΠΈ
Π ΡΠ΅ΠΏΠ΅ΡΡ, ΠΏΠΎΠΏΡΠΎΠ±ΡΠ΅ΠΌ Π΅Π³ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ
ΠΠ»Ρ ΡΡΠΎΠ³ΠΎ, ΠΏΠΎΡΠ»Π΅ ΠΎΠ±Π½Π°ΡΡΠΆΠ΅Π½ΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ², Π½Π°ΠΌ Π½ΡΠΆΠ½ΠΎ ΠΈΡ
Π²ΡΡΠ΅Π·Π°ΡΡ Ρ ΠΈΡΡ
ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ
Π― Π½Π΅ ΡΠΌΠΎΠ³ Π½Π°ΠΏΠΈΡΠ°ΡΡ Π½ΠΈΡΠ΅Π³ΠΎ Π»ΡΡΡΠ΅, ΡΠ΅ΠΌ ΡΠΎΡ ΡΠ°Π½ΠΈΡΡ Π½Π° ΠΌΠ΅Π΄Π»Π΅Π½Π½ΡΡ ΠΏΠ°ΠΌΡΡΡ, Π° ΠΏΠΎΡΠΎΠΌ ΡΠΆΠ΅ ΠΎΡΡΡΠ΄Π° ΡΡΠΈΡΡΠ²Π°ΡΡ.
Π’Π΅ΠΏΠ΅ΡΡ Ρ Π½Π°Ρ Π΅ΡΡΡ ΠΎΠ±ΡΠ΅ΠΊΡΡ Π² ΠΊΠ°ΡΠ°Π»ΠΎΠ³Π΅ /objectsOn
Π’Π΅ΠΏΠ΅ΡΡ, Π΅ΡΠ»ΠΈ Ρ Π½Π°Ρ Π΅ΡΡΡ ΠΊΠ°ΠΊ ΠΌΠΈΠ½ΠΈΠΌΡΠΌ 2 ΡΠ°ΠΊΠΈΡ ΠΊΠ°ΡΠ°Π»ΠΎΠ³Π°, ΡΠΎ ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ ΡΡΠ°Π²Π½ΠΈΠ²Π°ΡΡ ΠΎΠ±ΡΠ΅ΠΊΡΡ Π² Π½ΠΈΡ . ΠΠ°ΠΏΡΡΡΠΈΠΌ ΡΡΠ½ΠΊΡΠΈΡ, Π½Π°ΠΏΠΈΡΠ°Π½Π½ΡΡ ΡΠ°Π½Π΅Π΅
ΠΠ»ΠΈ ΠΌΡ ΠΌΠΎΠΆΠ΅ΠΌ ΡΠ΄Π΅Π»Π°ΡΡ Π΄ΡΡΠ³ΠΎΠ΅ Π΄Π΅ΠΉΡΡΠ²ΠΈΠ΅, Π²ΡΠΎΠ΄Π΅ ΠΌΠ°ΡΠΊΠΈΡΠΎΠ²ΠΊΠΈ ΡΡΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²ΡΠΌ Π°ΠΉΠ΄ΠΈΡΠ½ΠΈΠΊΠΎΠΌ.
ΠΠΎΠ½Π΅ΡΠ½ΠΎ, ΠΊΠ°ΠΊ ΠΈ Π²ΡΠ΅ Π½Π΅ΠΉΡΠΎΠ½Π½ΡΠ΅ ΡΠ΅ΡΠΈ, ΡΡΠ° ΡΠΊΠ»ΠΎΠ½Π½Π° Π΄Π°Π²Π°ΡΡ ΠΈΠ½ΠΎΠ³Π΄Π° ΠΎΡΠΈΠ±ΠΎΡΠ½ΡΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ.
Π ΡΠ΅Π»ΠΎΠΌ, ΠΌΡ Π²ΡΠΏΠΎΠ»Π½ΠΈΠ»ΠΈ 3 Π·Π°Π΄Π°ΡΠΈ, ΠΏΠΎΡΡΠ°Π²Π»Π΅Π½Π½ΡΠ΅ Π² Π½Π°ΡΠ°Π»Π΅, ΡΠ°ΠΊ ΡΡΠΎ Π±ΡΠ΄Π΅ΠΌ Π·Π°ΠΊΡΡΠ³Π»ΡΡΡΡΡ. Π― ΡΠΎΠΌΠ½Π΅Π²Π°ΡΡΡ, ΡΡΠΎ ΡΡΠ° ΡΡΠ°ΡΡΡ ΠΎΡΠΊΡΡΠ»Π° Π³Π»Π°Π·Π° Π»ΡΠ΄ΡΠΌ, ΠΊΠΎΡΠΎΡΡΠ΅ Π½Π°ΠΏΠΈΡΠ°Π»ΠΈ Ρ ΠΎΡΡ Π±Ρ ΠΎΠ΄Π½Ρ ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΡ, ΡΠ΅ΡΠ°ΡΡΡΡ Π·Π°Π΄Π°ΡΠΈ image recognition/image segmentation, Π½ΠΎ Ρ Π½Π°Π΄Π΅ΡΡΡ, ΡΡΠΎ Ρ ΠΏΠΎΠΌΠΎΠ³ Ρ ΠΎΡΡ Π±Ρ ΠΎΠ΄Π½ΠΎΠΌΡ Π½Π°ΡΠΈΠ½Π°ΡΡΠ΅ΠΌΡ ΡΠ°Π·ΡΠ°Π±ΠΎΡΡΠΈΠΊΡ).
ΠΠΎΠ»Π½ΡΠΉ ΠΈΡΡ ΠΎΠ΄Π½ΡΠΉ ΠΊΠΎΠ΄ ΠΏΡΠΎΠ΅ΠΊΡΠ° ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΡΠΌΠΎΡΡΠ΅ΡΡ ΡΡΡ.
Mask R-CNN: Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ° ΡΠΎΠ²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠΉ Π½Π΅ΠΉΡΠΎΠ½Π½ΠΎΠΉ ΡΠ΅ΡΠΈ Π΄Π»Ρ ΡΠ΅Π³ΠΌΠ΅Π½ΡΠ°ΡΠΈΠΈ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² Π½Π° ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡΡ
ΠΡΠ΅ΠΌΠ΅Π½Π°, ΠΊΠΎΠ³Π΄Π° ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· ΡΠ°ΠΌΡΡ Π°ΠΊΡΡΠ°Π»ΡΠ½ΡΡ Π·Π°Π΄Π°Ρ ΠΊΠΎΠΌΠΏΡΡΡΠ΅ΡΠ½ΠΎΠ³ΠΎ Π·ΡΠ΅Π½ΠΈΡ Π±ΡΠ»Π° ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΡ ΠΎΡΠ»ΠΈΡΠ°ΡΡ ΡΠΎΡΠΎΠ³ΡΠ°ΡΠΈΠΈ ΡΠΎΠ±Π°ΠΊ ΠΎΡ ΡΠΎΡΠΎΠ³ΡΠ°ΡΠΈΠΉ ΠΊΠΎΡΠ΅ΠΊ, ΡΠΆΠ΅ ΠΎΡΡΠ°Π»ΠΈΡΡ Π² ΠΏΡΠΎΡΠ»ΠΎΠΌ. ΠΠ° Π΄Π°Π½Π½ΡΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ Π½Π΅ΠΉΡΠΎΠ½Π½ΡΠ΅ ΡΠ΅ΡΠΈ ΡΠΏΠΎΡΠΎΠ±Π½Ρ Π²ΡΠΏΠΎΠ»Π½ΡΡΡ ΠΊΡΠ΄Π° Π±ΠΎΠ»Π΅Π΅ ΡΠ»ΠΎΠΆΠ½ΡΠ΅ ΠΈ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΡΠ΅ Π·Π°Π΄Π°Π½ΠΈΡ ΠΏΠΎ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ΅ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ. Π ΡΠ°ΡΡΠ½ΠΎΡΡΠΈ, ΡΠ΅ΡΡ Ρ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠΎΠΉ Mask R-CNN ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ Π²ΡΠ΄Π΅Π»ΡΡΡ Π½Π° ΡΠΎΡΠΎΠ³ΡΠ°ΡΠΈΡΡ ΠΊΠΎΠ½ΡΡΡΡ (Β«ΠΌΠ°ΡΠΊΠΈΒ») ΡΠΊΠ·Π΅ΠΌΠΏΠ»ΡΡΠΎΠ² ΡΠ°Π·Π½ΡΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ², Π΄Π°ΠΆΠ΅ Π΅ΡΠ»ΠΈ ΡΠ°ΠΊΠΈΡ ΡΠΊΠ·Π΅ΠΌΠΏΠ»ΡΡΠΎΠ² Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ, ΠΎΠ½ΠΈ ΠΈΠΌΠ΅ΡΡ ΡΠ°Π·Π»ΠΈΡΠ½ΡΠΉ ΡΠ°Π·ΠΌΠ΅Ρ ΠΈ ΡΠ°ΡΡΠΈΡΠ½ΠΎ ΠΏΠ΅ΡΠ΅ΠΊΡΡΠ²Π°ΡΡΡΡ. Π‘Π΅ΡΡ ΡΠ°ΠΊ ΠΆΠ΅ ΡΠΏΠΎΡΠΎΠ±Π½Π° ΠΊ ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΡ ΠΏΠΎΠ· Π»ΡΠ΄Π΅ΠΉ Π½Π° ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΈ.
Π Π½Π°ΡΠ°Π»Π΅ ΡΡΠΎΠ³ΠΎ Π³ΠΎΠ΄Π° ΠΌΠ½Π΅ Π΄ΠΎΠ²Π΅Π»ΠΎΡΡ Π² ΡΡΠ΅Π±Π½ΡΡ
ΡΠ΅Π»ΡΡ
ΠΏΠΎΡΡΠ°ΡΡΠ²ΠΎΠ²Π°ΡΡ Π² ΡΠΎΡΠ΅Π²Π½ΠΎΠ²Π°Π½ΠΈΠΈ Data Science Bowl 2018 Π½Π° Kaggle. Π ΡΡΠ΅Π±Π½ΡΡ
ΠΆΠ΅ ΡΠ΅Π»ΡΡ
ΠΌΠ½ΠΎΡ Π±ΡΠ»Π° ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½Π° ΠΎΠ΄Π½Π° ΠΈΠ· ΡΠ΅Ρ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΠΊΠΎΡΠΎΡΡΠ΅ Π²Π΅Π»ΠΈΠΊΠΎΠ΄ΡΡΠ½ΠΎ Π²ΡΠΊΠ»Π°Π΄ΡΠ²Π°ΡΡ Π½Π΅ΠΊΠΎΡΠΎΡΡΠ΅ ΡΡΠ°ΡΡΠ½ΠΈΠΊΠΈ, Π·Π°Π½ΠΈΠΌΠ°ΡΡΠΈΠ΅ Π²ΡΡΠΎΠΊΠΈΠ΅ ΠΏΠΎΠ·ΠΈΡΠΈΠΈ. ΠΡΠΎ Π±ΡΠ»Π° Π½Π΅ΠΉΡΠΎΡΠ΅ΡΡ Ρ Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠΎΠΉ Mask R-CNN, ΡΠ°Π·ΡΠ°Π±ΠΎΡΠ°Π½Π½Π°Ρ Π½Π΅Π΄Π°Π²Π½ΠΎ Facebook Research. (Π‘ΡΠΎΠΈΡ ΠΎΡΠΌΠ΅ΡΠΈΡΡ, ΡΡΠΎ ΠΏΠΎΠ±Π΅Π΄ΠΈΠ²ΡΠ°Ρ ΠΊΠΎΠΌΠ°Π½Π΄Π° ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»Π° Π²ΡΡ-ΡΠ°ΠΊΠΈ Π΄ΡΡΠ³ΡΡ Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΡ β U-Net. Π‘ΡΠ΄Ρ ΠΏΠΎ Π²ΡΠ΅ΠΌΡ, Π±ΠΎΠ»Π΅Π΅ ΠΏΠΎΠ΄Ρ
ΠΎΠ΄ΡΡΡΡ Π΄Π»Ρ Π±ΠΈΠΎΠΌΠ΅Π΄ΠΈΡΠΈΠ½ΡΠΊΠΈΡ
Π·Π°Π΄Π°Ρ, ΠΊ ΠΊΠΎΡΠΎΡΡΠΌ ΠΈ ΠΎΡΠ½ΠΎΡΠΈΠ»ΠΎΡΡ Data Science Bowl 2018).
ΠΠΎΡΠΊΠΎΠ»ΡΠΊΡ ΡΠ΅Π»Ρ ΡΠΎΡΡΠΎΡΠ»Π° Π² ΠΎΠ·Π½Π°ΠΊΠΎΠΌΠ»Π΅Π½ΠΈΠΈ Ρ Π·Π°Π΄Π°ΡΠ°ΠΌΠΈ Deep Learning, Π° Π½Π΅ Π·Π°Π½ΡΡΠΈΠΈ Π²ΡΡΠΎΠΊΠΎΠ³ΠΎ ΠΌΠ΅ΡΡΠ°, ΠΏΠΎΡΠ»Π΅ Π·Π°Π²Π΅ΡΡΠ΅Π½ΠΈΡ ΡΠΎΡΠ΅Π²Π½ΠΎΠ²Π°Π½ΠΈΡ ΠΎΡΡΠ°Π»ΠΎΡΡ ΡΡΠΎΠΉΠΊΠΎΠ΅ ΠΆΠ΅Π»Π°Π½ΠΈΠ΅ ΡΠ°Π·ΠΎΠ±ΡΠ°ΡΡΡΡ, ΠΊΠ°ΠΊ ΡΡΡΡΠΎΠ΅Π½Π° ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½Π½Π°Ρ Π½Π΅ΠΉΡΠΎΡΠ΅ΡΡ Β«ΠΏΠΎΠ΄ ΠΊΠ°ΠΏΠΎΡΠΎΠΌΒ». ΠΠ°Π½Π½Π°Ρ ΡΡΠ°ΡΡΡ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΠ΅Ρ ΠΎΠ±ΠΎΠ±ΡΠ΅Π½ΠΈΠ΅ ΡΠ²Π΅Π΄Π΅Π½ΠΈΠΉ, ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΡ
ΠΈΠ· ΠΎΡΠΈΠ³ΠΈΠ½Π°Π»ΡΠ½ΡΡ
Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ² Ρ arXiv.org ΠΈ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΡ
ΡΡΠ°ΡΠ΅ΠΉ Π½Π° Medium. ΠΠ°ΡΠ΅ΡΠΈΠ°Π» Π½ΠΎΡΠΈΡ ΠΈΡΠΊΠ»ΡΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΡΠ΅ΠΎΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΈΠΉ Ρ
Π°ΡΠ°ΠΊΡΠ΅Ρ (Ρ
ΠΎΡΡ Π² ΠΊΠΎΠ½ΡΠ΅ Π΅ΡΡΡ ΡΡΡΠ»ΠΊΠΈ ΠΏΡΠΎ ΠΏΡΠ°ΠΊΡΠΈΡΠ΅ΡΠΊΠΎΠ΅ ΠΏΡΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅), ΠΈ Π±ΠΎΠ»ΡΡΠ΅Π³ΠΎ, ΡΠ΅ΠΌ Π΅ΡΡΡ Π² ΡΠΊΠ°Π·Π°Π½Π½ΡΡ
ΠΈΡΡΠΎΡΠ½ΠΈΠΊΠ°Ρ
, ΠΎΠ½ Π½Π΅ ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ. ΠΠΎ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ ΠΏΠΎ ΡΠ΅ΠΌΠ΅ Π½Π° ΡΡΡΡΠΊΠΎΠΌ ΠΌΠ°Π»ΠΎ, ΡΠ°ΠΊ ΡΡΠΎ, Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, ΡΡΠ°ΡΡΡ ΠΎΠΊΠ°ΠΆΠ΅ΡΡΡ ΠΊΠΎΠΌΡ-ΡΠΎ ΠΏΠΎΠ»Π΅Π·Π½ΠΎΠΉ.
ΠΡΠ΅ ΠΈΠ»Π»ΡΡΡΡΠ°ΡΠΈΠΈ Π²Π·ΡΡΡ ΠΈΠ· ΡΡΠΆΠΈΡ ΠΈΡΡΠΎΡΠ½ΠΈΠΊΠΎΠ² ΠΈ ΠΏΡΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ°Ρ ΠΈΡ Π·Π°ΠΊΠΎΠ½Π½ΡΠΌ ΠΏΡΠ°Π²ΠΎΠΎΠ±Π»Π°Π΄Π°ΡΠ΅Π»ΡΠΌ.
Π’ΠΈΠΏΡ Π·Π°Π΄Π°Ρ computer vision
ΠΠ±ΡΡΠ½ΠΎ ΡΠΎΠ²ΡΠ΅ΠΌΠ΅Π½Π½ΡΠ΅ Π·Π°Π΄Π°ΡΠΈ ΠΊΠΎΠΌΠΏΡΡΡΠ΅ΡΠ½ΠΎΠ³ΠΎ Π·ΡΠ΅Π½ΠΈΡ ΡΠ°Π·Π΄Π΅Π»ΡΡΡ Π½Π° ΡΠ΅ΡΡΡΠ΅ Π²ΠΈΠ΄Π° (Π½Π΅ ΠΏΡΠΈΡ ΠΎΠ΄ΠΈΠ»ΠΎΡΡ Π²ΡΡΡΠ΅ΡΠ°ΡΡ ΠΏΠ΅ΡΠ΅Π²ΠΎΠ΄Ρ ΠΈΡ Π½Π°Π·Π²Π°Π½ΠΈΠΉ Π΄Π°ΠΆΠ΅ Π² ΡΡΡΡΠΊΠΎΡΠ·ΡΡΠ½ΡΡ ΠΈΡΡΠΎΡΠ½ΠΈΠΊΠ°Ρ , ΠΏΠΎΡΡΠΎΠΌΡ Π½Π° Π°Π½Π³Π»ΠΈΠΉΡΠΊΠΎΠΌ, ΡΡΠΎΠ±Ρ Π½Π΅ ΡΠΎΠ·Π΄Π°Π²Π°ΡΡ ΠΏΡΡΠ°Π½ΠΈΡΡ):
ΠΠ²ΠΎΠ»ΡΡΠΈΠΎΠ½Π½ΠΎΡΡΡ ΡΠ°Π·Π²ΠΈΡΠΈΡ Mask R-CNN
ΠΠΎΠ½ΡΠ΅ΠΏΡΠΈΠΈ, Π»Π΅ΠΆΠ°ΡΠΈΠ΅ Π² ΠΎΡΠ½ΠΎΠ²Π΅ Π² Mask R-CNN ΠΏΡΠΎΡΠ»ΠΈ ΠΏΠΎΡΡΠ°ΠΏΠ½ΠΎΠ΅ ΡΠ°Π·Π²ΠΈΡΠΈΠ΅ ΡΠ΅ΡΠ΅Π· Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΡ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΡ ΠΏΡΠΎΠΌΠ΅ΠΆΡΡΠΎΡΠ½ΡΡ Π½Π΅ΠΉΡΠΎΡΠ΅ΡΠ΅ΠΉ, ΡΠ΅ΡΠ°Π²ΡΠΈΡ ΡΠ°Π·Π½ΡΠ΅ Π·Π°Π΄Π°ΡΠΈ ΠΈΠ· ΠΏΡΠΈΠ²Π΅Π΄ΡΠ½Π½ΠΎΠ³ΠΎ Π²ΡΡΠ΅ ΡΠΏΠΈΡΠΊΠ°. ΠΠ΅ΡΠΎΡΡΠ½ΠΎ, ΡΠ°ΠΌΡΠΉ ΠΏΡΠΎΡΡΠΎΠΉ ΡΠΏΠΎΡΠΎΠ± ΡΠ°Π·ΠΎΠ±ΡΠ°ΡΡΡΡ Π² ΠΏΡΠΈΠ½ΡΠΈΠΏΠ°Ρ ΡΡΠ½ΠΊΡΠΈΠΎΠ½ΠΈΡΠΎΠ²Π°Π½ΠΈΡ Π΄Π°Π½Π½ΠΎΠΉ ΡΠ΅ΡΠΈ β ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎ ΡΠ°ΡΡΠΌΠΎΡΡΠ΅ΡΡ Π²ΡΠ΅ ΡΡΠΈ ΡΡΠ°ΠΏΡ.
ΠΠ΅ ΠΎΡΡΠ°Π½Π°Π²Π»ΠΈΠ²Π°ΡΡΡ Π½Π° Π±Π°Π·ΠΎΠ²ΡΡ Π²Π΅ΡΠ°Ρ Π²ΡΠΎΠ΄Π΅ backpropagation, ΡΡΠ½ΠΊΡΠΈΠΈ Π½Π΅Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ Π°ΠΊΡΠΈΠ²Π°ΡΠΈΠΈ, ΠΈ ΡΠΎΠ³ΠΎ, ΡΡΠΎ ΠΈΠ· ΡΠ΅Π±Ρ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΠ΅Ρ ΠΌΠ½ΠΎΠ³ΠΎΡΠ»ΠΎΠΉΠ½Π°Ρ Π½Π΅ΠΉΡΠΎΠ½Π½Π°Ρ ΡΠ΅ΡΡ Π² ΡΠ΅Π»ΠΎΠΌ, ΠΊΡΠ°ΡΠΊΠΎ ΠΏΠΎΡΡΠ½ΠΈΡΡ, ΠΊΠ°ΠΊ ΡΠ°Π±ΠΎΡΠ°ΡΡ ΡΠ»ΠΎΠΈ Convolution Neural Networks, Π²Π΅ΡΠΎΡΡΠ½ΠΎ, Π²ΡΡ-ΡΠ°ΠΊΠΈ ΡΡΠΎΠΈΡ (R-CNN ΠΆΠ΅).
Convolution ΠΈ MaxPooling
Π‘Π²Π΅ΡΡΠΎΡΠ½ΡΠΉ (convolutional) ΡΠ»ΠΎΠΉ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΡΡΡ Π·Π½Π°ΡΠ΅Π½ΠΈΡ ΡΠ°ΡΠΏΠΎΠ»ΠΎΠΆΠ΅Π½Π½ΡΡ ΡΡΠ΄ΠΎΠΌ ΠΏΠΈΠΊΡΠ΅Π»Π΅ΠΉ ΠΈ Π²ΡΠ΄Π΅Π»ΡΡΡ Π±ΠΎΠ»Π΅Π΅ ΠΎΠ±ΠΎΠ±ΡΡΠ½Π½ΡΠ΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ. ΠΠ»Ρ ΡΡΠΎΠ³ΠΎ ΠΏΠΎ ΠΊΠ°ΡΡΠΈΠ½ΠΊΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎ ΡΠΊΠΎΠ»ΡΠ·ΡΡ ΠΊΠ²Π°Π΄ΡΠ°ΡΠ½ΡΠΌ ΠΎΠΊΠ½ΠΎΠΌ Π½Π΅Π±ΠΎΠ»ΡΡΠΎΠ³ΠΎ ΡΠ°Π·ΠΌΠ΅ΡΠ° (3Ρ 3, 5Ρ 5, 7Ρ 7 ΠΏΠΈΠΊΡΠ΅Π»Π΅ΠΉ ΠΈ Ρ.ΠΏ.) Π½Π°Π·ΡΠ²Π°Π΅ΠΌΡΠΌ ΡΠ΄ΡΠΎΠΌ (kernel). ΠΠ°ΠΆΠ΄ΡΠΉ ΡΠ»Π΅ΠΌΠ΅Π½Ρ ΡΠ΄ΡΠ° ΠΈΠΌΠ΅Π΅Ρ ΡΠ²ΠΎΠΉ Π²Π΅ΡΠΎΠ²ΠΎΠΉ ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½Ρ, ΡΠΌΠ½ΠΎΠΆΠ°Π΅ΠΌΡΠΉ Π½Π° Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ ΡΠΎΠ³ΠΎ ΠΏΠΈΠΊΡΠ΅Π»Ρ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ, Π½Π° ΠΊΠΎΡΠΎΡΡΠΉ Π² Π΄Π°Π½Π½ΡΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ Π½Π°Π»ΠΎΠΆΠ΅Π½ ΡΠ»Π΅ΠΌΠ΅Π½Ρ ΡΠ΄ΡΠ°. ΠΠ°ΡΠ΅ΠΌ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠ΅ Π΄Π»Ρ Π²ΡΠ΅Π³ΠΎ ΠΎΠΊΠ½Π° ΡΠΈΡΠ»Π° ΡΠΊΠ»Π°Π΄ΡΠ²Π°ΡΡΡΡ, ΠΈ ΡΡΠ° Π²Π·Π²Π΅ΡΠ΅Π½Π½Π°Ρ ΡΡΠΌΠΌΠ° Π΄Π°ΡΡ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ ΠΎΡΠ΅ΡΠ΅Π΄Π½ΠΎΠ³ΠΎ ΠΏΡΠΈΠ·Π½Π°ΠΊΠ°.
ΠΠ»Ρ ΠΏΠΎΠ»ΡΡΠ΅Π½ΠΈΡ ΠΌΠ°ΡΡΠΈΡΡ (Β«ΠΊΠ°ΡΡΡΒ») ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² Π²ΡΠ΅Π³ΠΎ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ, ΡΠ΄ΡΠΎ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎ ΡΠ΄Π²ΠΈΠ³Π°Π΅ΡΡΡ ΠΏΠΎ Π³ΠΎΡΠΈΠ·ΠΎΠ½ΡΠ°Π»ΠΈ ΠΈ Π²Π΅ΡΡΠΈΠΊΠ°Π»ΠΈ. Π ΡΠ»Π΅Π΄ΡΡΡΠΈΡ ΡΠ»ΠΎΡΡ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΡ ΡΠ²Π΅ΡΡΠΊΠΈ ΠΏΡΠΈΠΌΠ΅Π½ΡΠ΅ΡΡΡ ΡΠΆΠ΅ ΠΊ ΠΊΠ°ΡΡΠ°ΠΌ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΌ ΠΈΠ· ΠΏΡΠ΅Π΄ΡΠ΄ΡΡΠΈΡ ΡΠ»ΠΎΡΠ². ΠΡΠ°ΡΠΈΡΠ΅ΡΠΊΠΈ ΠΏΡΠΎΡΠ΅ΡΡ ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡΠΎΠΈΠ»Π»ΡΡΡΡΠΈΡΠΎΠ²Π°ΡΡ ΡΠ°ΠΊ:
ΠΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅ ΠΈΠ»ΠΈ ΠΊΠ°ΡΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² ΡΠ°ΠΌΠΊΠ°Ρ ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΡΠ»ΠΎΡ ΠΌΠΎΠ³ΡΡ ΡΠΊΠ°Π½ΠΈΡΠΎΠ²Π°ΡΡΡΡ Π½Π΅ ΠΎΠ΄Π½ΠΈΠΌ, Π° Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΠΌΠΈ Π½Π΅Π·Π°Π²ΠΈΡΠΈΠΌΡΠΌΠΈ ΡΠΈΠ»ΡΡΡΠ°ΠΌΠΈ, Π΄Π°Π²Π°Ρ ΡΠ°ΠΊΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ Π½Π° Π²ΡΡ ΠΎΠ΄ Π½Π΅ ΠΎΠ΄Π½Ρ ΠΊΠ°ΡΡΡ, Π° Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ (ΠΈΡ Π΅ΡΡ Π½Π°Π·ΡΠ²Π°ΡΡ Β«ΠΊΠ°Π½Π°Π»Π°ΠΌΠΈΒ»). ΠΠ°ΡΡΡΠΎΠΉΠΊΠ° Π²Π΅ΡΠΎΠ² ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΡΠΈΠ»ΡΡΡΠ° ΠΏΡΠΎΠΈΡΡ ΠΎΠ΄ΠΈΡ ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ Π²ΡΡ ΡΠΎΠΉ ΠΆΠ΅ ΠΏΡΠΎΡΠ΅Π΄ΡΡΡ backpropagation.
ΠΡΠ΅Π²ΠΈΠ΄Π½ΠΎ, Π΅ΡΠ»ΠΈ ΡΠ΄ΡΠΎ ΡΠΈΠ»ΡΡΡΠ° ΠΏΡΠΈ ΡΠΊΠ°Π½ΠΈΡΠΎΠ²Π°Π½ΠΈΠΈ Π½Π΅ Π²ΡΡ ΠΎΠ΄ΠΈΡ Π·Π° ΠΏΡΠ΅Π΄Π΅Π»Ρ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ, ΡΠ°Π·ΠΌΠ΅ΡΠ½ΠΎΡΡΡ ΠΊΠ°ΡΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² Π±ΡΠ΄Π΅Ρ ΠΌΠ΅Π½ΡΡΠ΅, ΡΠ΅ΠΌ Ρ ΠΈΡΡ ΠΎΠ΄Π½ΠΎΠΉ ΠΊΠ°ΡΡΠΈΠ½ΠΊΠΈ. ΠΡΠ»ΠΈ Π½ΡΠΆΠ½ΠΎ ΡΠΎΡ ΡΠ°Π½ΠΈΡΡ ΡΠΎΡ ΠΆΠ΅ ΡΠ°Π·ΠΌΠ΅Ρ, ΠΏΡΠΈΠΌΠ΅Π½ΡΡΡ ΡΠ°ΠΊ Π½Π°Π·ΡΠ²Π°Π΅ΠΌΡΠ΅ paddings β Π·Π½Π°ΡΠ΅Π½ΠΈΡ, ΠΊΠΎΡΠΎΡΡΠΌΠΈ Π΄ΠΎΠΏΠΎΠ»Π½ΡΠ΅ΡΡΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅ ΠΏΠΎ ΠΊΡΠ°ΡΠΌ ΠΈ ΠΊΠΎΡΠΎΡΡΠ΅ ΠΏΠΎΡΠΎΠΌ Π·Π°Ρ Π²Π°ΡΡΠ²Π°ΡΡΡΡ ΡΠΈΠ»ΡΡΡΠΎΠΌ Π²ΠΌΠ΅ΡΡΠ΅ Ρ ΡΠ΅Π°Π»ΡΠ½ΡΠΌΠΈ ΠΏΠΈΠΊΡΠ΅Π»ΡΠΌΠΈ ΠΊΠ°ΡΡΠΈΠ½ΠΊΠΈ.
ΠΠΎΠΌΠΈΠΌΠΎ paddings Π½Π° ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΡΠ°Π·ΠΌΠ΅ΡΠ½ΠΎΡΡΠΈ ΡΠ°ΠΊ ΠΆΠ΅ Π²Π»ΠΈΡΡΡ strides β Π·Π½Π°ΡΠ΅Π½ΠΈΡ ΡΠ°Π³Π°, Ρ ΠΊΠΎΡΠΎΡΡΠΌ ΠΎΠΊΠ½ΠΎ ΠΏΠ΅ΡΠ΅ΠΌΠ΅ΡΠ°Π΅ΡΡΡ ΠΏΠΎ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ/ΠΊΠ°ΡΡΠ΅.
Π‘Π²ΡΡΡΠΊΠ° Π½Π΅ ΡΠ²Π»ΡΠ΅ΡΡΡ Π΅Π΄ΠΈΠ½ΡΡΠ²Π΅Π½Π½ΡΠΌ ΡΠΏΠΎΡΠΎΠ±ΠΎΠΌ ΠΏΠΎΠ»ΡΡΠ΅Π½ΠΈΡ ΠΎΠ±ΠΎΠ±ΡΡΠ½Π½ΠΎΠΉ Ρ Π°ΡΠ°ΠΊΡΠ΅ΡΠΈΡΡΠΈΠΊΠΈ Π³ΡΡΠΏΠΏΡ ΠΏΠΈΠΊΡΠ΅Π»Π΅ΠΉ. Π‘Π°ΠΌΡΠΉ ΠΏΡΠΎΡΡΠΎΠΉ ΡΠΏΠΎΡΠΎΠ± Π΄Π»Ρ ΡΡΠΎΠ³ΠΎ β Π²ΡΠ±ΡΠ°ΡΡ ΠΎΠ΄ΠΈΠ½ ΠΏΠΈΠΊΡΠ΅Π»Ρ ΠΏΠΎ Π·Π°Π΄Π°Π½Π½ΠΎΠΌΡ ΠΏΡΠ°Π²ΠΈΠ»Ρ, Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ β ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡΠ½ΡΠΉ. ΠΠΌΠ΅Π½Π½ΠΎ ΡΡΠΎ ΠΈ Π΄Π΅Π»Π°Π΅Ρ ΡΠ»ΠΎΠΉ MaxPooling.
Π ΠΎΡΠ»ΠΈΡΠΈΠ΅ ΠΎΡ convolution, maxpooling ΠΎΠ±ΡΡΠ½ΠΎ ΠΏΡΠΈΠΌΠ΅Π½ΡΠ΅ΡΡΡ ΠΊ Π½Π΅ΠΏΠ΅ΡΠ΅ΡΠ΅ΠΊΠ°ΡΡΠΈΠΌΡΡ Π³ΡΡΠΏΠΏΠ°ΠΌ ΠΏΠΈΠΊΡΠ΅Π»Π΅ΠΉ.
ΠΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ° ΡΠ΅ΡΠΈ R-CNN (Regions With CNNs) Π±ΡΠ»Π° ΡΠ°Π·ΡΠ°Π±ΠΎΡΠ°Π½Π° ΠΊΠΎΠΌΠ°Π½Π΄ΠΎΠΉ ΠΈΠ· UC Berkley Π΄Π»Ρ ΠΏΡΠΈΠΌΠ΅Π½Π΅Π½ΠΈΡ Convolution Neural Networks ΠΊ Π·Π°Π΄Π°ΡΠ΅ object detection. Π‘ΡΡΠ΅ΡΡΠ²ΠΎΠ²Π°Π²ΡΠΈΠ΅ Π½Π° ΡΠΎΡ ΠΌΠΎΠΌΠ΅Π½Ρ ΠΏΠΎΠ΄Ρ ΠΎΠ΄Ρ ΠΊ ΡΠ΅ΡΠ΅Π½ΠΈΡ ΡΠ°ΠΊΠΈΡ Π·Π°Π΄Π°Ρ ΠΏΡΠΈΠ±Π»ΠΈΠ·ΠΈΠ»ΠΈΡΡ ΠΊ ΠΌΠ°ΡΠΈΠΌΡΠΌΡ ΡΠ²ΠΎΠΈΡ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠ΅ΠΉ ΠΈ Π·Π½Π°ΡΠΈΠΌΠΎ ΡΠ»ΡΡΡΠΈΡΡ ΠΈΡ ΠΏΠΎΠΊΠ°Π·Π°ΡΠ΅Π»ΠΈ Π½Π΅ ΠΏΠΎΠ»ΡΡΠ°Π»ΠΎΡΡ.
CNN Ρ ΠΎΡΠΎΡΠΎ ΠΏΠΎΠΊΠ°Π·ΡΠ²Π°Π»ΠΈ ΡΠ΅Π±Ρ Π² ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ, ΠΈ Π² Π΄Π°Π½Π½ΠΎΠΉ ΡΠ΅ΡΠΈ ΠΎΠ½ΠΈ ΠΏΠΎ ΡΡΡΠΈ Π±ΡΠ»ΠΈ ΠΏΡΠΈΠΌΠ΅Π½Π΅Π½Ρ Π΄Π»Ρ ΡΠΎΠ³ΠΎ ΠΆΠ΅ ΡΠ°ΠΌΠΎΠ³ΠΎ. ΠΠ»Ρ ΡΡΠΎΠ³ΠΎ Π½Π° Π²Ρ ΠΎΠ΄ CNN ΠΏΠΎΠ΄Π°Π²Π°Π»ΠΎΡΡ Π½Π΅ Π²ΡΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅ ΡΠ΅Π»ΠΈΠΊΠΎΠΌ, Π° ΠΏΡΠ΅Π΄Π²Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎ Π²ΡΠ΄Π΅Π»Π΅Π½Π½ΡΠ΅ Π΄ΡΡΠ³ΠΈΠΌ ΡΠΏΠΎΡΠΎΠ±ΠΎΠΌ ΡΠ΅Π³ΠΈΠΎΠ½Ρ, Π½Π° ΠΊΠΎΡΠΎΡΡΡ ΠΏΡΠ΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΡΠ΅Π»ΡΠ½ΠΎ ΠΈΠΌΠ΅ΡΡΡΡ ΠΊΠ°ΠΊΠΈΠ΅-ΡΠΎ ΠΎΠ±ΡΠ΅ΠΊΡΡ. ΠΠ° ΡΠΎΡ ΠΌΠΎΠΌΠ΅Π½Ρ ΡΠ°ΠΊΠΈΡ ΠΏΠΎΠ΄Ρ ΠΎΠ΄ΠΎΠ² Π±ΡΠ»ΠΎ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ, Π°Π²ΡΠΎΡΡ Π²ΡΠ±ΡΠ°Π»ΠΈ Selective Search, Ρ ΠΎΡΡ ΠΎΠ½ΠΈ ΡΠΊΠ°Π·ΡΠ²Π°ΡΡ, ΡΡΠΎ ΠΎΡΠΎΠ±ΡΡ ΠΏΡΠΈΡΠΈΠ½ Π΄Π»Ρ ΠΏΡΠ΅Π΄ΠΏΠΎΡΡΠ΅Π½ΠΈΡ ΠΈΠΌΠ΅Π½Π½ΠΎ Π΅Π³ΠΎ Π½Π΅Ρ.
Π ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ CNN-ΡΠ΅ΡΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»Π°ΡΡ ΡΠ°ΠΊ ΠΆΠ΅ Π³ΠΎΡΠΎΠ²Π°Ρ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ° β CaffeNet (AlexNet). Π’Π°ΠΊΠΈΠ΅ Π½Π΅ΠΉΡΠΎΡΠ΅ΡΠΈ, ΠΊΠ°ΠΊ ΠΈ Π΄ΡΡΠ³ΠΈΠ΅ Π΄Π»Ρ Π½Π°Π±ΠΎΡΠ° ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ ImageNet, ΠΏΡΠΎΠ²ΠΎΠ΄ΡΡ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ Π½Π° 1000 ΠΊΠ»Π°ΡΡΠΎΠ². R-CNN ΡΠ°Π·ΡΠ°Π±Π°ΡΡΠ²Π°Π»Π°ΡΡ Π΄Π»Ρ Π΄Π΅ΡΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² ΠΌΠ΅Π½ΡΡΠ΅Π³ΠΎ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Π° ΠΊΠ»Π°ΡΡΠΎΠ² (N= 20 ΠΈΠ»ΠΈ 200), ΠΏΠΎΡΡΠΎΠΌΡ ΠΏΠΎΡΠ»Π΅Π΄Π½ΠΈΠΉ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΎΠ½Π½ΡΠΉ ΡΠ»ΠΎΠΉ CaffeNet Π±ΡΠ» Π·Π°ΠΌΠ΅Π½ΡΠ½ Π½Π° ΡΠ»ΠΎΠΉ Ρ N+1 Π²ΡΡ ΠΎΠ΄Π°ΠΌΠΈ (Ρ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΡΠΌ ΠΊΠ»Π°ΡΡΠΎΠΌ Π΄Π»Ρ ΡΠΎΠ½Π°).
Selective Search Π²ΡΠ΄Π°Π²Π°Π» ΠΎΠΊΠΎΠ»ΠΎ 2000 ΡΠ΅Π³ΠΈΠΎΠ½ΠΎΠ² ΡΠ°Π·Π½ΠΎΠ³ΠΎ ΡΠ°Π·ΠΌΠ΅ΡΠ° ΠΈ ΡΠΎΠΎΡΠ½ΠΎΡΠ΅Π½ΠΈΠΉ ΡΡΠΎΡΠΎΠ½, ΠΎΠ΄Π½Π°ΠΊΠΎ CaffeNet ΠΏΡΠΈΠ½ΠΈΠΌΠ°Π΅Ρ Π½Π° Π²Ρ ΠΎΠ΄ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ ΡΠΈΠΊΡΠΈΡΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ ΡΠ°Π·ΠΌΠ΅ΡΠ° 227Ρ 227 ΠΏΠΈΠΊΡΠ΅Π»Π΅ΠΉ, ΠΏΠΎΡΡΠΎΠΌΡ ΠΏΠ΅ΡΠ΅Π΄ ΠΏΠΎΠ΄Π°ΡΠ΅ΠΉ ΡΠ΅Π³ΠΈΠΎΠ½ΠΎΠ² Π½Π° Π²Ρ ΠΎΠ΄ ΡΠ΅ΡΠΈ ΠΈΡ ΠΏΡΠΈΡ ΠΎΠ΄ΠΈΠ»ΠΎΡΡ ΠΌΠΎΠ΄ΠΈΡΠΈΡΠΈΡΠΎΠ²Π°ΡΡ. ΠΠ»Ρ ΡΡΠΎΠ³ΠΎ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅ ΠΈΠ· ΡΠ΅Π³ΠΈΠΎΠ½Π° Π·Π°ΠΊΠ»ΡΡΠ°Π»ΠΎΡΡ Π² Π½Π°ΠΈΠΌΠ΅Π½ΡΡΠΈΠΉ ΠΎΡ Π²Π°ΡΡΠ²Π°ΡΡΠΈΠΉ ΠΊΠ²Π°Π΄ΡΠ°Ρ. ΠΠ΄ΠΎΠ»Ρ ΡΠΎΠΉ (ΠΌΠ΅Π½ΡΡΠ΅ΠΉ) ΡΡΠΎΡΠΎΠ½Ρ, ΠΏΠΎ ΠΊΠΎΡΠΎΡΠΎΠΉ ΠΎΠ±ΡΠ°Π·ΠΎΠ²ΡΠ²Π°Π»ΠΈΡΡ ΠΏΠΎΠ»Ρ, Π΄ΠΎΠ±Π°Π²Π»ΡΠ»ΠΎΡΡ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΎ Β«ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ½ΡΡ Β» (ΠΎΠΊΡΡΠΆΠ°ΡΡΠΈΡ ΡΠ΅Π³ΠΈΠΎΠ½) ΠΏΠΈΠΊΡΠ΅Π»Π΅ΠΉ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ, ΠΎΡΡΠ°Π²ΡΠ°ΡΡΡ ΡΠ°ΡΡΡ ΠΏΠΎΠ»Ρ Π½ΠΈΡΠ΅ΠΌ Π½Π΅ Π·Π°ΠΏΠΎΠ»Π½ΡΠ»Π°ΡΡ. ΠΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΉ ΠΊΠ²Π°Π΄ΡΠ°Ρ ΠΌΠ°ΡΡΡΠ°Π±ΠΈΡΠΎΠ²Π°Π»ΡΡ ΠΏΠΎΠ΄ ΡΠ°Π·ΠΌΠ΅Ρ 227×227 ΠΈ ΠΏΠΎΠ΄Π°Π²Π°Π»ΡΡ Π½Π° Π²Ρ ΠΎΠ΄ CaffeNet.
ΠΠ΅ΡΠΌΠΎΡΡΡ Π½Π° ΡΠΎ, ΡΡΠΎ CNN ΡΡΠ΅Π½ΠΈΡΠΎΠ²Π°Π»Π°ΡΡ Π½Π° ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΠ΅ N+1 ΠΊΠ»Π°ΡΡΠΎΠ², Π² ΠΈΡΠΎΠ³Π΅ ΠΎΠ½Π° ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»Π°ΡΡ ΡΠΎΠ»ΡΠΊΠΎ Π΄Π»Ρ ΠΈΠ·Π²Π»Π΅ΡΠ΅Π½ΠΈΡ ΡΠΈΠΊΡΠΈΡΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ 4096-ΡΠ°Π·ΠΌΠ΅ΡΠ½ΠΎΠ³ΠΎ Π²Π΅ΠΊΡΠΎΡΠ° ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ². ΠΠ΅ΠΏΠΎΡΡΠ΅Π΄ΡΡΠ²Π΅Π½Π½ΡΠΌ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ΠΌ ΠΎΠ±ΡΠ΅ΠΊΡΠ° Π½Π° ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΈ Π·Π°Π½ΠΈΠΌΠ°Π»ΠΈΡΡ N Π»ΠΈΠ½Π΅ΠΉΠ½ΡΡ SVM, ΠΊΠ°ΠΆΠ΄ΡΠΉ ΠΈΠ· ΠΊΠΎΡΠΎΡΡΡ ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ» Π±ΠΈΠ½Π°ΡΠ½ΡΡ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ ΠΏΠΎ ΡΠ²ΠΎΠ΅ΠΌΡ ΡΠΈΠΏΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ², ΠΎΠΏΡΠ΅Π΄Π΅Π»ΡΡ Π΅ΡΡΡ Π»ΠΈ ΡΠ°ΠΊΠΎΠΉ Π² ΠΏΠ΅ΡΠ΅Π΄Π°Π½Π½ΠΎΠΌ ΡΠ΅Π³ΠΈΠΎΠ½Π΅ ΠΈΠ»ΠΈ Π½Π΅Ρ. Π ΠΎΡΠΈΠ³ΠΈΠ½Π°Π»ΡΠ½ΠΎΠΌ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ΅ Π²ΡΡ ΠΏΡΠΎΡΠ΅Π΄ΡΡΠ° ΠΈΠ»Π»ΡΡΡΡΠΈΡΡΠ΅ΡΡΡ ΡΠ°ΠΊΠΎΠΉ ΡΡ Π΅ΠΌΠΎΠΉ:
ΠΠ²ΡΠΎΡΡ ΡΡΠ²Π΅ΡΠΆΠ΄Π°ΡΡ, ΡΡΠΎ ΠΏΡΠΎΡΠ΅ΡΡ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ Π² SVM ΠΏΡΠΎΠΈΡΡ ΠΎΠ΄ΠΈΡ Π²Π΅ΡΡΠΌΠ° ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎ, ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΡ ΡΠΎΠ±ΠΎΠΉ ΠΏΠΎ ΡΡΡΠΈ ΠΏΡΠΎΡΡΠΎ ΠΌΠ°ΡΡΠΈΡΠ½ΡΠ΅ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΠΈ. ΠΠΎΠ»ΡΡΠ΅Π½Π½ΡΠ΅ ΠΈΠ· CNN Π²Π΅ΠΊΡΠΎΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΡΡΡΡΡ ΠΏΠΎ Π²ΡΠ΅ΠΌ ΡΠ΅Π³ΠΈΠΎΠ½Π°ΠΌ Π² ΠΌΠ°ΡΡΠΈΡΡ 2000Ρ 4096, ΠΊΠΎΡΠΎΡΠ°Ρ Π·Π°ΡΠ΅ΠΌ ΡΠΌΠ½ΠΎΠΆΠ°Π΅ΡΡΡ Π½Π° ΠΌΠ°ΡΡΠΈΡΡ 4096xN Ρ Π²Π΅ΡΠ°ΠΌΠΈ SVM.
ΠΠ°Π΄ΠΎ ΠΎΡΠΌΠ΅ΡΠΈΡΡ, ΡΡΠΎ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠ΅ ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ Selective Search ΡΠ΅Π³ΠΈΠΎΠ½Ρ ΡΠΎΠ»ΡΠΊΠΎ ΠΌΠΎΠ³ΡΡ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΡ ΠΊΠ°ΠΊΠΈΠ΅-ΡΠΎ ΠΎΠ±ΡΠ΅ΠΊΡΡ, ΠΈ Π½Π΅ ΡΠ°ΠΊΡ, ΡΡΠΎ ΡΠΎΠ΄Π΅ΡΠΆΠ°Ρ ΠΈΡ ΡΠ΅Π»ΠΈΠΊΠΎΠΌ. Π‘ΡΠΈΡΠ°ΡΡ Π»ΠΈ ΡΠ΅Π³ΠΈΠΎΠ½ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΠΈΠΌ ΠΎΠ±ΡΠ΅ΠΊΡ ΠΈΠ»ΠΈ Π½Π΅Ρ, ΠΎΠΏΡΠ΅Π΄Π΅Π»ΡΠ»ΠΎΡΡ ΠΏΠΎ ΠΌΠ΅ΡΡΠΈΠΊΠ΅ Intersection over Union (IoU). ΠΡΠ° ΠΌΠ΅ΡΡΠΈΠΊΠ° ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΠ΅Ρ ΡΠΎΠ±ΠΎΠΉ ΠΎΡΠ½ΠΎΡΠ΅Π½ΠΈΠ΅ ΠΏΠ»ΠΎΡΠ°Π΄ΠΈ ΠΏΠ΅ΡΠ΅ΡΠ΅ΡΠ΅Π½ΠΈΡ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΎΠ³ΠΎ ΡΠ΅Π³ΠΈΠΎΠ½Π°-ΠΊΠ°Π½Π΄ΠΈΠ΄Π°ΡΠ° Ρ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊΠΎΠΌ, Π½Π° ΡΠ°ΠΌΠΎΠΌ Π΄Π΅Π»Π΅ ΠΎΠ±Ρ Π²Π°ΡΡΠ²Π°ΡΡΠΈΠΌ ΠΎΠ±ΡΠ΅ΠΊΡ, ΠΊ ΠΏΠ»ΠΎΡΠ°Π΄ΠΈ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½Π΅Π½ΠΈΡ ΡΡΠΈΡ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΠΈΠΊΠΎΠ². ΠΡΠ»ΠΈ ΠΎΡΠ½ΠΎΡΠ΅Π½ΠΈΠ΅ ΠΏΡΠ΅Π²ΠΎΡΡ ΠΎΠ΄ΠΈΡ Π·Π°Π΄Π°Π½Π½ΡΡ ΠΏΠΎΡΠΎΠ³ΠΎΠ²ΡΡ Π²Π΅Π»ΠΈΡΠΈΠ½Ρ, ΡΠ΅Π³ΠΈΠΎΠ½-ΠΊΠ°Π½Π΄ΠΈΠ΄Π°Ρ ΡΡΠΈΡΠ°Π΅ΡΡΡ ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΠΈΠΌ Π½ΡΠΆΠ½ΡΠΉ ΠΎΠ±ΡΠ΅ΠΊΡ.
IoU ΡΠ°ΠΊ ΠΆΠ΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΡΡ Π΄Π»Ρ ΠΎΡΡΠ΅ΠΈΠ²Π°Π½ΠΈΡ ΠΈΠ·Π±ΡΡΠΎΡΠ½ΠΎΠ³ΠΎ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Π° ΡΠ΅Π³ΠΈΠΎΠ½ΠΎΠ², ΡΠΎΠ΄Π΅ΡΠΆΠ°ΡΠΈΡ ΠΎΠΏΡΠ΅Π΄Π΅Π»ΡΠ½Π½ΡΠΉ ΠΎΠ±ΡΠ΅ΠΊΡ (non-maximum suppression). ΠΡΠ»ΠΈ IoU Π½Π΅ΠΊΠΎΡΠΎΡΠΎΠ³ΠΎ ΡΠ΅Π³ΠΈΠΎΠ½Π° Ρ ΡΠ΅Π³ΠΈΠΎΠ½ΠΎΠΌ, ΠΏΠΎΠ»ΡΡΠΈΠ²ΡΠΈΠΌ Π΄Π»Ρ ΡΠΎΠ³ΠΎ ΠΆΠ΅ ΠΎΠ±ΡΠ΅ΠΊΡΠ° ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡΠ½ΡΠΉ ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ, Π±ΡΠ» Π²ΡΡΠ΅ Π½Π΅ΠΊΠΎΡΠΎΡΠΎΠ³ΠΎ ΠΏΠΎΡΠΎΠ³Π°, ΠΏΠ΅ΡΠ²ΡΠΉ ΡΠ΅Π³ΠΈΠΎΠ½ ΠΏΡΠΎΡΡΠΎ ΠΎΡΠ±ΡΠ°ΡΡΠ²Π°Π»ΡΡ.
Π Ρ ΠΎΠ΄Π΅ ΠΏΡΠΎΡΠ΅Π΄ΡΡΡ error analysis Π°Π²ΡΠΎΡΡ ΡΠ°ΠΊ ΠΆΠ΅ ΡΠ°Π·ΡΠ°Π±ΠΎΡΠ°Π»ΠΈ ΠΌΠ΅ΡΠΎΠ΄, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡΡΠΈΠΉ ΡΠΌΠ΅Π½ΡΡΠΈΡΡ ΠΎΡΠΈΠ±ΠΊΡ Π²ΡΠ΄Π΅Π»Π΅Π½ΠΈΡ ΠΎΡ Π²Π°ΡΡΠ²Π°ΡΡΠ΅ΠΉ ΡΠ°ΠΌΠΊΠΈ ΠΎΠ±ΡΠ΅ΠΊΡΠ° β bounding-box regression. ΠΠΎΡΠ»Π΅ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ ΡΠΎΠ΄Π΅ΡΠΆΠΈΠΌΠΎΠ³ΠΎ ΡΠ΅Π³ΠΈΠΎΠ½Π°-ΠΊΠ°Π½Π΄ΠΈΠ΄Π°ΡΠ°, ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ ΡΠ΅Π³ΡΠ΅ΡΡΠΈΠΈ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈΠ· CNN ΠΎΠΏΡΠ΅Π΄Π΅Π»ΡΠ»ΠΈΡΡ ΡΠ΅ΡΡΡΠ΅ ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠ° β (dx, dy, dw, dh). ΠΠ½ΠΈ ΠΎΠΏΠΈΡΡΠ²Π°Π»ΠΈ, Π½Π°ΡΠΊΠΎΠ»ΡΠΊΠΎ Π½Π°Π΄ΠΎ ΡΠ΄Π²ΠΈΠ½ΡΡΡ ΡΠ΅Π½ΡΡ ΡΠ°ΠΌΠΊΠΈ ΡΠ΅Π³ΠΈΠΎΠ½Π° ΠΏΠΎ Ρ ΠΈ Ρ, Π° ΡΠ°ΠΊΠΆΠ΅ Π½Π° ΡΠΊΠΎΠ»ΡΠΊΠΎ ΠΈΠ·ΠΌΠ΅Π½ΠΈΡΡ Π΅Ρ ΡΠΈΡΠΈΠ½Ρ ΠΈ Π²ΡΡΠΎΡΡ, ΡΡΠΎΠ±Ρ ΡΠΎΡΠ½Π΅Π΅ ΠΎΡ Π²Π°ΡΡΠ²Π°ΡΡ ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π½Π½ΡΠΉ ΠΎΠ±ΡΠ΅ΠΊΡ.
Π’Π°ΠΊΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ, ΠΏΡΠΎΡΠ΅Π΄ΡΡΡ Π΄Π΅ΡΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² ΡΠ΅ΡΡΡ R-CNN ΠΌΠΎΠΆΠ½ΠΎ ΡΠ°Π·Π΄Π΅Π»ΠΈΡΡ Π½Π° ΡΠ»Π΅Π΄ΡΡΡΠΈΠ΅ ΡΠ°Π³ΠΈ:
Fast R-CNN
ΠΠ΅ΡΠΌΠΎΡΡΡ Π½Π° Π²ΡΡΠΎΠΊΠΈΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ, ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΡ R-CNN Π±ΡΠ»Π° Π²ΡΡ ΠΆΠ΅ Π½Π΅Π²ΡΡΠΎΠΊΠ°, ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎ Π΄Π»Ρ Π±ΠΎΠ»Π΅Π΅ Π³Π»ΡΠ±ΠΎΠΊΠΈΡ , ΡΠ΅ΠΌ CaffeNet ΡΠ΅ΡΠ΅ΠΉ (ΡΠ°ΠΊΠΈΡ ΠΊΠ°ΠΊ VGG16). ΠΡΠΎΠΌΠ΅ ΡΠΎΠ³ΠΎ, ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ bounding box regressor ΠΈ SVM ΡΡΠ΅Π±ΠΎΠ²Π°Π»ΠΎ ΡΠΎΡ ΡΠ°Π½Π΅Π½ΠΈΡ Π½Π° Π΄ΠΈΡΠΊ Π±ΠΎΠ»ΡΡΠΎΠ³ΠΎ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Π° ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΏΠΎΡΡΠΎΠΌΡ ΠΎΠ½ΠΎ Π±ΡΠ»ΠΎ Π΄ΠΎΡΠΎΠ³ΠΈΠΌ Ρ ΡΠΎΡΠΊΠΈ Π·ΡΠ΅Π½ΠΈΡ ΡΠ°Π·ΠΌΠ΅ΡΠ° Ρ ΡΠ°Π½ΠΈΠ»ΠΈΡΠ°.
ΠΠ²ΡΠΎΡΡ Fast R-CNN ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠΈΠ»ΠΈ ΡΡΠΊΠΎΡΠΈΡΡ ΠΏΡΠΎΡΠ΅ΡΡ Π·Π° ΡΡΡΡ ΠΏΠ°ΡΡ ΠΌΠΎΠ΄ΠΈΡΠΈΠΊΠ°ΡΠΈΠΉ:
ΠΠΈΠ½Π°ΡΠ½ΡΠ΅ SVM Π½Π΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΈΡΡ, Π²ΠΌΠ΅ΡΡΠΎ ΡΡΠΎΠ³ΠΎ Π²ΡΠ±ΡΠ°Π½Π½ΡΠ΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΈ ΠΏΠ΅ΡΠ΅Π΄Π°Π²Π°Π»ΠΈΡΡ Π½Π° ΠΏΠΎΠ»Π½ΠΎΡΠ²ΡΠ·Π°Π½Π½ΡΠΉ ΡΠ»ΠΎΠΉ, Π° Π·Π°ΡΠ΅ΠΌ Π½Π° Π΄Π²Π° ΠΏΠ°ΡΠ°Π»Π»Π΅Π»ΡΠ½ΡΡ ΡΠ»ΠΎΡ: softmax Ρ K+1 Π²ΡΡ ΠΎΠ΄Π°ΠΌΠΈ (ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΌΡ Π½Π° ΠΊΠ°ΠΆΠ΄ΡΠΉ ΠΊΠ»Π°ΡΡ + 1 Π΄Π»Ρ ΡΠΎΠ½Π°) ΠΈ bounding box regressor.
ΠΠ±ΡΠ°Ρ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ° ΡΠ΅ΡΠΈ Π²ΡΠ³Π»ΡΠ΄ΠΈΡ ΡΠ°ΠΊ:
ΠΠ΄Π΅ΡΡ:
β ΠΊΠ»Π°ΡΡ ΠΎΠ±ΡΠ΅ΠΊΡΠ°, ΡΠ΅Π°Π»ΡΠ½ΠΎ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΡΠ½Π½ΠΎΠ³ΠΎ Π² ΡΠ΅Π³ΠΈΠΎΠ½Π΅-ΠΊΠ°Π½Π΄ΠΈΠ΄Π°ΡΠ΅;
β log loss Π΄Π»Ρ ΠΊΠ»Π°ΡΡΠ° u;
β ΡΠ΅Π°Π»ΡΠ½ΡΠ΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΡ ΡΠ°ΠΌΠΊΠΈ ΡΠ΅Π³ΠΈΠΎΠ½Π° Π΄Π»Ρ Π±ΠΎΠ»Π΅Π΅ ΡΠΎΡΠ½ΠΎΠ³ΠΎ ΠΎΡ
Π²Π°ΡΡΠ²Π°Π½ΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠ°;
β ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½Π½ΡΠ΅ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΡ ΡΠ°ΠΌΠΊΠΈ ΡΠ΅Π³ΠΈΠΎΠ½Π°;
β loss-ΡΡΠ½ΠΊΡΠΈΡ ΠΌΠ΅ΠΆΠ΄Ρ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½Π½ΡΠΌΠΈ ΠΈ ΡΠ΅Π°Π»ΡΠ½ΡΠΌΠΈ ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΡΠΌΠΈ ΡΠ°ΠΌΠΊΠΈ;
β ΠΈΠ½Π΄ΠΈΠΊΠ°ΡΠΎΡΠ½Π°Ρ ΡΡΠ½ΠΊΡΠΈΡ, ΡΠ°Π²Π½Π°Ρ 1, ΠΊΠΎΠ³Π΄Π°
, ΠΈ 0, ΠΊΠΎΠ³Π΄Π° Π½Π°ΠΎΠ±ΠΎΡΠΎΡ. ΠΠ»Π°ΡΡΠΎΠΌ
ΠΎΠ±ΠΎΠ·Π½Π°ΡΠ°Π΅ΡΡΡ ΡΠΎΠ½ (Ρ.Π΅. ΠΎΡΡΡΡΡΡΠ²ΠΈΠ΅ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² Π² ΡΠ΅Π³ΠΈΠΎΠ½Π΅).
β ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½Ρ, ΠΏΡΠ΅Π΄Π½Π°Π·Π½Π°ΡΠ΅Π½Π½ΡΠΉ Π΄Π»Ρ Π±Π°Π»Π°Π½ΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ Π²ΠΊΠ»Π°Π΄Π° ΠΎΠ±ΠΎΠΈΡ
loss-ΡΡΠ½ΠΊΡΠΈΠΉ Π² ΠΎΠ±ΡΠΈΠΉ ΡΠ΅Π·ΡΠ»ΡΡΠ°Ρ. ΠΠΎ Π²ΡΠ΅Ρ
ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠ°Ρ
Π°Π²ΡΠΎΡΠΎΠ² Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ°, ΠΎΠ½, ΠΎΠ΄Π½Π°ΠΊΠΎ, Π±ΡΠ» ΡΠ°Π²Π΅Π½ 1.
ΠΠ²ΡΠΎΡΡ ΡΠ°ΠΊ ΠΆΠ΅ ΡΠΏΠΎΠΌΠΈΠ½Π°ΡΡ, ΡΡΠΎ Π΄Π»Ρ ΡΡΠΊΠΎΡΠ΅Π½ΠΈΡ Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΠΉ Π² ΠΏΠΎΠ»Π½ΠΎΡΠ²ΡΠ·Π°Π½Π½ΠΎΠΌ ΡΠ»ΠΎΠ΅ ΠΎΠ½ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΈ ΡΠ°Π·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΌΠ°ΡΡΠΈΡΡ Π²Π΅ΡΠΎΠ² ΠΏΠΎ Truncated SVD.
Faster R-CNN
ΠΠΎΡΠ»Π΅ ΡΠ»ΡΡΡΠ΅Π½ΠΈΠΉ, ΡΠ΄Π΅Π»Π°Π½Π½ΡΡ Π² Fast R-CNN, ΡΠ°ΠΌΡΠΌ ΡΠ·ΠΊΠΈΠΌ ΠΌΠ΅ΡΡΠΎΠΌ Π½Π΅ΠΉΡΠΎΡΠ΅ΡΠΈ ΠΎΠΊΠ°Π·Π°Π»ΡΡ ΠΌΠ΅Ρ Π°Π½ΠΈΠ·ΠΌ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΡΠ΅Π³ΠΈΠΎΠ½ΠΎΠ²-ΠΊΠ°Π½Π΄ΠΈΠ΄Π°ΡΠΎΠ². Π 2015 ΠΊΠΎΠΌΠ°Π½Π΄Π° ΠΈΠ· Microsoft Research ΡΠΌΠΎΠ³Π»Π° ΡΠ΄Π΅Π»Π°ΡΡ ΡΡΠΎΡ ΡΡΠ°ΠΏ Π·Π½Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎ Π±ΠΎΠ»Π΅Π΅ Π±ΡΡΡΡΡΠΌ. ΠΠ½ΠΈ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠΈΠ»ΠΈ Π²ΡΡΠΈΡΠ»ΡΡΡ ΡΠ΅Π³ΠΈΠΎΠ½Ρ Π½Π΅ ΠΏΠΎ ΠΈΠ·Π½Π°ΡΠ°Π»ΡΠ½ΠΎΠΌΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ, Π° ΠΎΠΏΡΡΡ ΠΆΠ΅ ΠΏΠΎ ΠΊΠ°ΡΡΠ΅ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΡ ΠΈΠ· CNN. ΠΠ»Ρ ΡΡΠΎΠ³ΠΎ Π±ΡΠ» Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ ΠΌΠΎΠ΄ΡΠ»Ρ ΠΏΠΎΠ΄ Π½Π°Π·Π²Π°Π½ΠΈΠ΅ΠΌ Region Proposal Network (RPN). ΠΠΎΠ²Π°Ρ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ° ΡΠ΅Π»ΠΈΠΊΠΎΠΌ Π²ΡΠ³Π»ΡΠ΄ΠΈΡ ΡΠ»Π΅Π΄ΡΡΡΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ:
Π ΡΠ°ΠΌΠΊΠ°Ρ RPN ΠΏΠΎ ΠΈΠ·Π²Π»Π΅ΡΡΠ½Π½ΡΠΌ CNN ΠΏΡΠΈΠ·Π½Π°ΠΊΠ°ΠΌ ΡΠΊΠΎΠ»ΡΠ·ΡΡ Β«ΠΌΠΈΠ½ΠΈ-Π½Π΅ΠΉΡΠΎΡΠ΅ΡΡΡΒ» Ρ Π½Π΅Π±ΠΎΠ»ΡΡΠΈΠΌ (3Ρ 3) ΠΎΠΊΠ½ΠΎΠΌ. ΠΠΎΠ»ΡΡΠ΅Π½Π½ΡΠ΅ Ρ Π΅Ρ ΠΏΠΎΠΌΠΎΡΡΡ Π·Π½Π°ΡΠ΅Π½ΠΈΡ ΠΏΠ΅ΡΠ΅Π΄Π°ΡΡΡΡ Π² Π΄Π²Π° ΠΏΠ°ΡΠ°Π»Π»Π΅Π»ΡΠ½ΡΡ ΠΏΠΎΠ»Π½ΠΎΡΠ²ΡΠ·Π°Π½Π½ΡΡ ΡΠ»ΠΎΡ: box-regression layer (reg) ΠΈ box-classification layer (cls). ΠΡΡ ΠΎΠ΄Ρ ΡΡΠΈΡ ΡΠ»ΠΎΡΠ² Π±Π°Π·ΠΈΡΡΡΡΡΡ Π½Π° ΡΠ°ΠΊ Π½Π°Π·ΡΠ²Π°Π΅ΠΌΡΡ anchor-Π°Ρ : k ΡΠ°ΠΌΠΊΠ°Ρ Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΡ ΡΠΊΠΎΠ»ΡΠ·ΡΡΠ΅Π³ΠΎ ΠΎΠΊΠ½Π°, ΠΈΠΌΠ΅ΡΡΠΈΡ ΡΠ°Π·Π½ΡΠ΅ ΡΠ°Π·ΠΌΠ΅ΡΡ ΠΈ ΡΠΎΠΎΡΠ½ΠΎΡΠ΅Π½ΠΈΡ ΡΡΠΎΡΠΎΠ½. Reg-ΡΠ»ΠΎΠΉ Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΡΠ°ΠΊΠΎΠ³ΠΎ anchor-Π° Π²ΡΠ΄Π°ΡΡ ΠΏΠΎ 4 ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°ΡΡ, ΠΊΠΎΡΡΠ΅ΠΊΡΠΈΡΡΡΡΠΈΠ΅ ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΎΡ Π²Π°ΡΡΠ²Π°ΡΡΠ΅ΠΉ ΡΠ°ΠΌΠΊΠΈ; cls-ΡΠ»ΠΎΠΉ Π²ΡΠ΄Π°ΡΡ ΠΏΠΎ Π΄Π²Π° ΡΠΈΡΠ»Π° β Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΠΈ ΡΠΎΠ³ΠΎ, ΡΡΠΎ ΡΠ°ΠΌΠΊΠ° ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ Ρ ΠΎΡΡ ΠΊΠ°ΠΊΠΎΠΉ-ΡΠΎ ΠΎΠ±ΡΠ΅ΠΊΡ ΠΈΠ»ΠΈ ΡΡΠΎ Π½Π΅ ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ. Π Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ΅ ΡΡΠΎ ΠΈΠ»Π»ΡΡΡΡΠΈΡΡΠ΅ΡΡΡ ΡΠ°ΠΊΠΎΠΉ ΡΡ Π΅ΠΌΠΎΠΉ:
ΠΡΠΎΡΠ΅ΡΡ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ reg ΠΈ cls ΡΠ»ΠΎΡΠ² ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΡΠ½Π½ΡΠΉ; loss-ΡΡΠ½ΠΊΡΠΈΡ ΠΎΠ½ΠΈ ΠΈΠΌΠ΅ΡΡ ΠΎΠ±ΡΡΡ, ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΡΡΡΡ ΡΠΎΠ±ΠΎΠΉ ΡΡΠΌΠΌΡ loss-ΡΡΠ½ΠΊΡΠΈΠΉ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΈΠ· Π½ΠΈΡ , Ρ Π±Π°Π»Π°Π½ΡΠΈΡΡΡΡΠΈΠΌ ΠΊΠΎΡΡΡΠΈΡΠΈΠ΅Π½ΡΠΎΠΌ.
ΠΠ±Π° ΡΠ»ΠΎΡ RPN Π²ΡΠ΄Π°ΡΡ ΡΠΎΠ»ΡΠΊΠΎ ΠΏΡΠ΅Π΄Π»ΠΎΠΆΠ΅Π½ΠΈΡ Π΄Π»Ρ ΡΠ΅Π³ΠΈΠΎΠ½ΠΎΠ²-ΠΊΠ°Π½Π΄ΠΈΠ΄Π°ΡΠΎΠ². Π’Π΅ ΠΈΠ· Π½ΠΈΡ , ΠΊΠΎΡΠΎΡΡΠ΅ ΠΈΠΌΠ΅ΡΡ Π²ΡΡΠΎΠΊΡΡ Π²Π΅ΡΠΎΡΡΠ½ΠΎΡΡΡ ΡΠΎΠ΄Π΅ΡΠΆΠ°Π½ΠΈΡ ΠΊΠ°ΠΊΠΎΠ³ΠΎ-Π»ΠΈΠ±ΠΎ ΠΎΠ±ΡΠ΅ΠΊΡΠ°, ΠΏΠ΅ΡΠ΅Π΄Π°ΡΡΡΡ Π΄Π°Π»ΡΡΠ΅ Π² ΠΌΠΎΠ΄ΡΠ»Ρ Π΄Π΅ΡΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² ΠΈ ΡΡΠΎΡΠ½Π΅Π½ΠΈΡ ΠΎΡ Π²Π°ΡΡΠ²Π°ΡΡΠ΅ΠΉ ΡΠ°ΠΌΠΊΠΈ, ΠΊΠΎΡΠΎΡΡΠΉ ΠΏΠΎ-ΠΏΡΠ΅ΠΆΠ½Π΅ΠΌΡ ΡΠ΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½ ΠΊΠ°ΠΊ Fast R-CNN.
ΠΠ»Ρ ΡΠΎΠ³ΠΎ, ΡΡΠΎΠ±Ρ ΡΠ°Π·Π΄Π΅Π»ΡΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΈ, ΠΏΠΎΠ»ΡΡΠ°Π΅ΠΌΡΠ΅ Π² CNN, ΠΌΠ΅ΠΆΠ΄Ρ RPN ΠΈ ΠΌΠΎΠ΄ΡΠ»Π΅ΠΌ Π΄Π΅ΡΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ, ΠΏΡΠΎΡΠ΅ΡΡ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ Π²ΡΠ΅ΠΉ ΡΠ΅ΡΠΈ ΠΏΠΎΡΡΡΠΎΠ΅Π½ ΠΈΡΠ΅ΡΠ°ΡΠΈΠΎΠ½Π½ΠΎ, Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΡ ΡΠ°Π³ΠΎΠ²:
Mask R-CNN
Mask R-CNN ΡΠ°Π·Π²ΠΈΠ²Π°Π΅Ρ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΡ Faster R-CNN ΠΏΡΡΡΠΌ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ΠΈΡ Π΅ΡΡ ΠΎΠ΄Π½ΠΎΠΉ Π²Π΅ΡΠΊΠΈ, ΠΊΠΎΡΠΎΡΠ°Ρ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·ΡΠ²Π°Π΅Ρ ΠΏΠΎΠ»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΌΠ°ΡΠΊΠΈ, ΠΏΠΎΠΊΡΡΠ²Π°ΡΡΠ΅ΠΉ Π½Π°ΠΉΠ΄Π΅Π½Π½ΡΠΉ ΠΎΠ±ΡΠ΅ΠΊΡ, ΠΈ, ΡΠ°ΠΊΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ ΡΠ΅ΡΠ°Π΅Ρ ΡΠΆΠ΅ Π·Π°Π΄Π°ΡΡ instance segmentation. ΠΠ°ΡΠΊΠ° ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΠ΅Ρ ΡΠΎΠ±ΠΎΠΉ ΠΏΡΠΎΡΡΠΎ ΠΏΡΡΠΌΠΎΡΠ³ΠΎΠ»ΡΠ½ΡΡ ΠΌΠ°ΡΡΠΈΡΡ, Π² ΠΊΠΎΡΠΎΡΠΎΠΉ 1 Π½Π° Π½Π΅ΠΊΠΎΡΠΎΡΠΎΠΉ ΠΏΠΎΠ·ΠΈΡΠΈΠΈ ΠΎΠ·Π½Π°ΡΠ°Π΅Ρ ΠΏΡΠΈΠ½Π°Π΄Π»Π΅ΠΆΠ½ΠΎΡΡΡ ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΡΡΠ΅Π³ΠΎ ΠΏΠΈΠΊΡΠ΅Π»Ρ ΠΎΠ±ΡΠ΅ΠΊΡΡ Π·Π°Π΄Π°Π½Π½ΠΎΠ³ΠΎ ΠΊΠ»Π°ΡΡΠ°, 0 β ΡΡΠΎ ΠΏΠΈΠΊΡΠ΅Π»Ρ ΠΎΠ±ΡΠ΅ΠΊΡΡ Π½Π΅ ΠΏΡΠΈΠ½Π°Π΄Π»Π΅ΠΆΠΈΡ.
ΠΠΈΠ·ΡΠ°Π»ΠΈΠ·Π°ΡΠΈΡ ΡΠ°Π·Π½ΠΎΡΠ²Π΅ΡΠ½ΡΡ ΠΌΠ°ΡΠΎΠΊ Π½Π° ΠΈΡΡ ΠΎΠ΄Π½ΡΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡΡ ΠΌΠΎΠΆΠ΅Ρ Π΄Π°Π²Π°ΡΡ ΠΊΡΠ°ΡΠΎΡΠ½ΡΠ΅ ΠΊΠ°ΡΡΠΈΠ½ΠΊΠΈ:
ΠΠ²ΡΠΎΡΡ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ° ΡΡΠ»ΠΎΠ²Π½ΠΎ ΡΠ°Π·Π΄Π΅Π»ΡΡΡ ΡΠ°Π·ΡΠ°Π±ΠΎΡΠ°Π½Π½ΡΡ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΡ Π½Π° CNN-ΡΠ΅ΡΡ Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡ, Π½Π°Π·ΡΠ²Π°Π΅ΠΌΡΡ ΠΈΠΌΠΈ backbone, ΠΈ head β ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½Π΅Π½ΠΈΠ΅ ΡΠ°ΡΡΠ΅ΠΉ, ΠΎΡΠ²Π΅ΡΠ°ΡΡΠΈΡ Π·Π° ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΠ΅ ΠΎΡ Π²Π°ΡΡΠ²Π°ΡΡΠ΅ΠΉ ΡΠ°ΠΌΠΊΠΈ, ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠ° ΠΈ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ Π΅Π³ΠΎ ΠΌΠ°ΡΠΊΠΈ. Loss ΡΡΠ½ΠΊΡΠΈΡ Π΄Π»Ρ Π½ΠΈΡ ΠΎΠ±ΡΠ°Ρ ΠΈ Π²ΠΊΠ»ΡΡΠ°Π΅Ρ ΡΡΠΈ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½ΡΠ°:
ΠΡΠ΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΌΠ°ΡΠΊΠΈ ΠΏΡΠΎΠΈΡΡ ΠΎΠ΄ΠΈΡ Π² class-agnostic ΡΡΠΈΠ»Π΅: ΠΌΠ°ΡΠΊΠΈ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·ΡΠ²Π°ΡΡΡΡ ΠΎΡΠ΄Π΅Π»ΡΠ½ΠΎ Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΊΠ»Π°ΡΡΠ°, Π±Π΅Π· ΠΏΡΠ΅Π΄Π²Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎΠ³ΠΎ Π·Π½Π°Π½ΠΈΡ, ΡΡΠΎ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΎ Π² ΡΠ΅Π³ΠΈΠΎΠ½Π΅, ΠΈ ΠΏΠΎΡΠΎΠΌ ΠΏΡΠΎΡΡΠΎ Π²ΡΠ±ΠΈΡΠ°Π΅ΡΡΡ ΠΌΠ°ΡΠΊΠ° ΠΊΠ»Π°ΡΡΠ°, ΠΏΠΎΠ±Π΅Π΄ΠΈΠ²ΡΠ΅Π³ΠΎ Π² Π½Π΅Π·Π°Π²ΠΈΡΠΈΠΌΠΎΠΌ ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΎΡΠ΅. Π£ΡΠ²Π΅ΡΠΆΠ΄Π°Π΅ΡΡΡ, ΡΡΠΎ ΡΠ°ΠΊΠΎΠΉ ΠΏΠΎΠ΄Ρ ΠΎΠ΄ Π±ΠΎΠ»Π΅Π΅ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π΅Π½, ΡΠ΅ΠΌ ΠΎΠΏΠΈΡΠ°ΡΡΠΈΠΉΡΡ Π½Π° Π°ΠΏΡΠΈΠΎΡΠ½ΠΎΠ΅ Π·Π½Π°Π½ΠΈΠ΅ ΠΊΠ»Π°ΡΡΠ°.
ΠΠ΄Π½Π° ΠΈΠ· ΠΎΡΠ½ΠΎΠ²Π½ΡΡ ΠΌΠΎΠ΄ΠΈΡΠΈΠΊΠ°ΡΠΈΠΉ, Π²ΠΎΠ·Π½ΠΈΠΊΡΠΈΡ ΠΈΠ·-Π·Π° Π½Π΅ΠΎΠ±Ρ ΠΎΠ΄ΠΈΠΌΠΎΡΡΠΈ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·ΡΠ²Π°ΡΡ ΠΌΠ°ΡΠΊΡ β ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ ΠΏΡΠΎΡΠ΅Π΄ΡΡΡ RoIPool(Π²ΡΡΠΈΡΠ»ΡΡΡΠ΅ΠΉ ΠΌΠ°ΡΡΠΈΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² Π΄Π»Ρ ΡΠ΅Π³ΠΈΠΎΠ½Π°-ΠΊΠ°Π½Π΄ΠΈΠ΄Π°ΡΠ°) Π½Π° ΡΠ°ΠΊ Π½Π°Π·ΡΠ²Π°Π΅ΠΌΡΡ RoIAlign. ΠΠ΅Π»ΠΎ Π² ΡΠΎΠΌ, ΡΡΠΎ ΠΊΠ°ΡΡΠ° ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΏΠΎΠ»ΡΡΠ΅Π½Π½Π°Ρ ΠΈΠ· CNN, ΠΈΠΌΠ΅Π΅Ρ ΠΌΠ΅Π½ΡΡΠΈΠΉ ΡΠ°Π·ΠΌΠ΅Ρ, ΡΠ΅ΠΌ ΠΈΡΡ ΠΎΠ΄Π½ΠΎΠ΅ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅, ΠΈ ΡΠ΅Π³ΠΈΠΎΠ½, ΠΎΡ Π²Π°ΡΡΠ²Π°ΡΡΠΈΠΉ Π½Π° ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΈ ΡΠ΅Π»ΠΎΡΠΈΡΠ»Π΅Π½Π½ΠΎΠ΅ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ ΠΏΠΈΠΊΡΠ΅Π»Π΅ΠΉ, Π½Π΅ ΠΏΠΎΠ»ΡΡΠ°Π΅ΡΡΡ ΠΎΡΠΎΠ±ΡΠ°Π·ΠΈΡΡ Π² ΠΏΡΠΎΠΏΠΎΡΡΠΈΠΎΠ½Π°Π»ΡΠ½ΡΠΉ ΡΠ΅Π³ΠΈΠΎΠ½ ΠΊΠ°ΡΡΡ Ρ ΡΠ΅Π»ΠΎΡΠΈΡΠ»Π΅Π½Π½ΡΠΌ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎΠΌ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ²:
Π RoIPool ΠΏΡΠΎΠ±Π»Π΅ΠΌΠ° ΡΠ΅ΡΠ°Π»Π°ΡΡ ΠΏΡΠΎΡΡΠΎ ΠΎΠΊΡΡΠ³Π»Π΅Π½ΠΈΠ΅ΠΌ Π΄ΡΠΎΠ±Π½ΡΡ Π·Π½Π°ΡΠ΅Π½ΠΈΠΉ Π΄ΠΎ ΡΠ΅Π»ΡΡ . Π’Π°ΠΊΠΎΠΉ ΠΏΠΎΠ΄Ρ ΠΎΠ΄ Π½ΠΎΡΠΌΠ°Π»ΡΠ½ΠΎ ΡΠ°Π±ΠΎΡΠ°Π΅Ρ ΠΏΡΠΈ Π²ΡΠ΄Π΅Π»Π΅Π½ΠΈΠΈ ΠΎΡ Π²Π°ΡΡΠ²Π°ΡΡΠ΅ΠΉ ΡΠ°ΠΌΠΊΠΈ, Π½ΠΎ Π²ΡΡΠΈΡΠ»Π΅Π½Π½Π°Ρ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ ΡΠ°ΠΊΠΈΡ Π΄Π°Π½Π½ΡΡ ΠΌΠ°ΡΠΊΠ° ΠΏΠΎΠ»ΡΡΠ°Π΅ΡΡΡ ΡΠ»ΠΈΡΠΊΠΎΠΌ Π½Π΅ΡΠΎΡΠ½ΠΎΠΉ.
Π ΠΏΡΠΎΡΠΈΠ²ΠΎΠΏΠΎΠ»ΠΎΠΆΠ½ΠΎΡΡΡ ΡΡΠΎΠΌΡ, Π² RoIAlign Π½Π΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ ΠΎΠΊΡΡΠ³Π»Π΅Π½ΠΈΠ΅, Π²ΡΠ΅ ΡΠΈΡΠ»Π° ΠΎΡΡΠ°ΡΡΡΡ Π΄Π΅ΠΉΡΡΠ²ΠΈΡΠ΅Π»ΡΠ½ΡΠΌΠΈ, Π° Π΄Π»Ρ Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΡ Π·Π½Π°ΡΠ΅Π½ΠΈΠΉ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅ΡΡΡ Π±ΠΈΠ»ΠΈΠ½Π΅ΠΉΠ½Π°Ρ ΠΈΠ½ΡΠ΅ΡΠΏΠΎΠ»ΡΡΠΈΡ ΠΏΠΎ ΡΠ΅ΡΡΡΡΠΌ Π±Π»ΠΈΠΆΠ°ΠΉΡΠΈΠΌ ΡΠ΅Π»ΠΎΡΠΈΡΠ»Π΅Π½Π½ΡΠΌ ΡΠΎΡΠΊΠ°ΠΌ.
Π ΠΎΡΠΈΠ³ΠΈΠ½Π°Π»ΡΠ½ΠΎΠΌ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠ΅ ΡΠ°Π·Π½ΠΈΡΠ° ΠΏΠΎΡΡΠ½ΡΠ΅ΡΡΡ ΡΠ°ΠΊΠΈΠΌ ΡΠΈΡΡΠ½ΠΊΠΎΠΌ:
ΠΠ΄Π΅ΡΡ ΡΡΡΠΈΡ ΠΎΠ²Π°Π½Π½ΠΎΠΉ ΡΠ΅ΡΠΊΠΎΠΉ ΠΎΠ±ΠΎΠ·Π½Π°ΡΠ΅Π½Π° ΠΊΠ°ΡΡΠ° ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ², Π° Π½Π΅ΠΏΡΠ΅ΡΡΠ²Π½ΠΎΠΉ β ΠΎΡΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅ Π½Π° ΠΊΠ°ΡΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² ΡΠ΅Π³ΠΈΠΎΠ½Π°-ΠΊΠ°Π½Π΄ΠΈΠ΄Π°ΡΠ° Ρ ΠΈΡΡ ΠΎΠ΄Π½ΠΎΠΉ ΡΠΎΡΠΎΠ³ΡΠ°ΡΠΈΠΈ. Π Π΄Π°Π½Π½ΡΠΉ ΡΠ΅Π³ΠΈΠΎΠ½ Π΄ΠΎΠ»ΠΆΠ½ΠΎ ΠΏΠΎΠΏΠ°ΡΡΡ 4 Π³ΡΡΠΏΠΏΡ Π΄Π»Ρ max pooling ΠΏΠΎ 4 ΠΏΡΠΈΠ·Π½Π°ΠΊΠ°, ΠΎΠ±ΠΎΠ·Π½Π°ΡΠ΅Π½Π½ΡΡ Π½Π° ΡΠΈΡΡΠ½ΠΊΠ΅ ΡΠΎΡΠΊΠ°ΠΌΠΈ. Π ΠΎΡΠ»ΠΈΡΠΈΠ΅ ΠΎΡ ΠΏΡΠΎΡΠ΅Π΄ΡΡΡ RoIPool, ΠΊΠΎΡΠΎΡΠ°Ρ Π·Π° ΡΡΡΡ ΠΎΠΊΡΡΠ³Π»Π΅Π½ΠΈΡ ΠΏΡΠΎΡΡΠΎ Π±Ρ Π²ΡΡΠΎΠ²Π½ΡΠ»Π° ΡΠ΅Π³ΠΈΠΎΠ½ ΠΏΠΎ ΡΠ΅Π»ΠΎΡΠΈΡΠ»Π΅Π½Π½ΡΠΌ ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°ΡΠ°ΠΌ, RoIAlign ΠΎΡΡΠ°Π²Π»ΡΠ΅Ρ ΡΠΎΡΠΊΠΈ Π² ΠΈΡ ΡΠ΅ΠΊΡΡΠΈΡ ΠΌΠ΅ΡΡΠ°Ρ , Π½ΠΎ Π²ΡΡΠΈΡΠ»ΡΠ΅Ρ Π·Π½Π°ΡΠ΅Π½ΠΈΡ ΠΊΠ°ΠΆΠ΄ΠΎΠΉ ΠΈΠ· Π½ΠΈΡ ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ Π±ΠΈΠ»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ ΠΈΠ½ΡΠ΅ΡΠΏΠΎΠ»ΡΡΠΈΠΈ ΠΏΠΎ ΡΠ΅ΡΡΡΡΠΌ Π±Π»ΠΈΠΆΠ°ΠΉΡΠΈΠΌ ΠΏΡΠΈΠ·Π½Π°ΠΊΠ°ΠΌ.
ΠΠΈΠ»ΠΈΠ½Π΅ΠΉΠ½Π°Ρ ΠΈΠ½ΡΠ΅ΡΠΏΠΎΠ»ΡΡΠΈΡ ΡΡΠ½ΠΊΡΠΈΠΈ Π΄Π²ΡΡ
ΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½Π½ΡΡ
ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΡΡ Π·Π° ΡΡΡΡ ΠΏΡΠΈΠΌΠ΅Π½Π΅Π½ΠΈΡ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ ΠΈΠ½ΡΠ΅ΡΠΏΠΎΠ»ΡΡΠΈΠΈ ΡΠ½Π°ΡΠ°Π»Π° Π² Π½Π°ΠΏΡΠ°Π²Π»Π΅Π½ΠΈΠΈ ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· ΠΊΠΎΠΎΡΠ΄ΠΈΠ½Π°Ρ, Π·Π°ΡΠ΅ΠΌ β Π² Π΄ΡΡΠ³ΠΎΠΉ.
ΠΡΡΡΡ Π½ΡΠΆΠ½ΠΎ ΠΈΠ½ΡΠ΅ΡΠΏΠΎΠ»ΠΈΡΠΎΠ²Π°ΡΡ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ ΡΡΠ½ΠΊΡΠΈΠΈ Π² ΡΠΎΡΠΊΠ΅ P ΠΏΡΠΈ ΠΈΠ·Π²Π΅ΡΡΠ½ΡΡ
Π·Π½Π°ΡΠ΅Π½ΠΈΡΡ
ΡΡΠ½ΠΊΡΠΈΠΈ Π² ΠΎΠΊΡΡΠΆΠ°ΡΡΠΈΡ
ΡΠΎΡΠΊΠ°Ρ
(ΡΠΌ. ΡΠΈΡΡΠ½ΠΎΠΊ Π½ΠΈΠΆΠ΅). ΠΠ»Ρ ΡΡΠΎΠ³ΠΎ Π²Π½Π°ΡΠ°Π»Π΅ ΠΈΠ½ΡΠ΅ΡΠΏΠΎΠ»ΠΈΡΡΡΡΡΡ Π·Π½Π°ΡΠ΅Π½ΠΈΡ Π²ΡΠΏΠΎΠΌΠΎΠ³Π°ΡΠ΅Π»ΡΠ½ΡΡ
ΡΠΎΡΠ΅ΠΊ R1 ΠΈ R2, Π° Π·Π°ΡΠ΅ΠΌ Π½Π° ΠΈΡ
ΠΎΡΠ½ΠΎΠ²Π΅ ΠΈΠ½ΡΠ΅ΡΠΏΠΎΠ»ΠΈΡΡΠ΅ΡΡΡ Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ Π² ΡΠΎΡΠΊΠ΅ P.
ΠΠΎΠΌΠΈΠΌΠΎ Π²ΡΡΠΎΠΊΠΈΡ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠ² Π² Π·Π°Π΄Π°ΡΠ°Ρ instance segmentation ΠΈ object detection, Mask R-CNN ΠΎΠΊΠ°Π·Π°Π»Π°ΡΡ ΠΏΡΠΈΠ³ΠΎΠ΄Π½ΠΎΠΉ Π΄Π»Ρ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΠΏΠΎΠ· Π»ΡΠ΄Π΅ΠΉ Π½Π° ΡΠΎΡΠΎΠ³ΡΠ°ΡΠΈΠΈ (human pose estimation). ΠΠ»ΡΡΠ΅Π²ΠΎΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ Π·Π΄Π΅ΡΡ β Π²ΡΠ΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΎΠΏΠΎΡΠ½ΡΡ ΡΠΎΡΠ΅ΠΊ (keypoints), ΡΠ°ΠΊΠΈΡ ΠΊΠ°ΠΊ Π»Π΅Π²ΠΎΠ΅ ΠΏΠ»Π΅ΡΠΎ, ΠΏΡΠ°Π²ΡΠΉ Π»ΠΎΠΊΠΎΡΡ, ΠΏΡΠ°Π²ΠΎΠ΅ ΠΊΠΎΠ»Π΅Π½ΠΎ ΠΈ Ρ.ΠΏ., ΠΏΠΎ ΠΊΠΎΡΠΎΡΡΠΌ ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΡΠΈΡΠΎΠ²Π°ΡΡ ΠΊΠ°ΡΠΊΠ°Ρ ΠΏΠΎΠ·ΠΈΡΠΈΠΈ ΡΠ΅Π»ΠΎΠ²Π΅ΠΊΠ°:
ΠΠ»Ρ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΠΎΠΏΠΎΡΠ½ΡΡ ΡΠΎΡΠ΅ΠΊ Π½Π΅ΠΉΡΠΎΡΠ΅ΡΡ ΠΎΠ±ΡΡΠ°ΡΡ ΡΠ°ΠΊΠΈΠΌ ΠΎΠ±ΡΠ°Π·ΠΎΠΌ, ΡΡΠΎΠ±Ρ ΠΎΠ½Π° Π²ΡΠ΄Π°Π²Π°Π»Π° ΠΌΠ°ΡΠΊΠΈ, Π² ΠΊΠΎΡΠΎΡΡΡ ΡΠΎΠ»ΡΠΊΠΎ ΠΎΠ΄ΠΈΠ½ ΠΏΠΈΠΊΡΠ΅Π»Ρ (ΡΠ° ΡΠ°ΠΌΠ°Ρ ΡΠΎΡΠΊΠ°) ΠΈΠΌΠ΅Π» Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ 1, Π° ΠΎΡΡΠ°Π»ΡΠ½ΡΠ΅ β 0 (one-hot mask). Π ΡΠΎ ΠΆΠ΅ Π²ΡΠ΅ΠΌΡ, ΡΠ΅ΡΡ ΡΡΠ΅Π½ΠΈΡΡΠ΅ΡΡΡ Π²ΡΠ΄Π°Π²Π°ΡΡ K ΡΠ°ΠΊΠΈΡ ΠΎΠ΄Π½ΠΎΠΏΠΈΠΊΡΠ΅Π»ΡΠ½ΡΡ ΠΌΠ°ΡΠΎΠΊ, ΠΏΠΎ ΠΎΠ΄Π½ΠΎΠΉ Π΄Π»Ρ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΡΠΈΠΏΠ° ΠΎΠΏΠΎΡΠ½ΠΎΠΉ ΡΠΎΡΠΊΠΈ.
Feature Pyramid Networks
Π ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠ°Ρ
ΠΏΠΎ Mask R-CNN, Π½Π°ΡΡΠ΄Ρ Ρ ΠΎΠ±ΡΡΠ½ΠΎΠΉ CNN ResNet-50/101 Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ backbone, ΡΠ°ΠΊΠΆΠ΅ ΠΏΡΠΎΠ²ΠΎΠ΄ΠΈΠ»ΠΈΡΡ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΡ ΡΠ΅Π»Π΅ΡΠΎΠΎΠ±ΡΠ°Π·Π½ΠΎΡΡΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ Feature Pyramid Network (FPN). ΠΠ½ΠΈ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, ΡΡΠΎ ΠΏΡΠΈΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ FPN Π² backbone Π΄Π°ΡΡ Mask R-CNN ΠΏΡΠΈΡΠΎΡΡ ΠΊΠ°ΠΊ Π² ΡΠΎΡΠ½ΠΎΡΡΠΈ, ΡΠ°ΠΊ ΠΈ Π² ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ. ΠΡΠΎ Π΄Π΅Π»Π°Π΅Ρ ΠΏΠΎΠ»Π΅Π·Π½ΡΠΌ ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ ΡΠ°ΠΊ ΠΆΠ΅ ΠΈ Π΄Π°Π½Π½ΠΎΠ³ΠΎ ΡΠ»ΡΡΡΠ΅Π½ΠΈΡ, Π½Π΅ΡΠΌΠΎΡΡΡ Π½Π° ΡΠΎ, ΡΡΠΎ Π΅ΠΌΡ ΠΏΠΎΡΠ²ΡΡΡΠ½ ΠΎΡΠ΄Π΅Π»ΡΠ½ΡΠΉ Π΄ΠΎΠΊΡΠΌΠ΅Π½Ρ ΠΈ Ρ ΡΠ΅ΡΠΈΠ΅ΠΉ ΡΠ°ΡΡΠΌΠ°ΡΡΠΈΠ²Π°Π΅ΠΌΡΡ
ΡΡΠ°ΡΠ΅ΠΉ ΠΎΠ½ ΡΠ²ΡΠ·Π°Π½ ΠΌΠ°Π»ΠΎ.
ΠΠ°Π·Π½Π°ΡΠ΅Π½ΠΈΠ΅ Feature Pyramids, ΠΊΠ°ΠΊ ΠΈ image pyramids, β ΡΠ»ΡΡΡΠ΅Π½ΠΈΠ΅ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° Π΄Π΅ΡΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² Ρ ΡΡΡΡΠΎΠΌ Π±ΠΎΠ»ΡΡΠΎΠ³ΠΎ Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½Π° ΠΈΡ
Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΡΡ
ΡΠ°Π·ΠΌΠ΅ΡΠΎΠ².
Π Feature Pyramid Network ΠΊΠ°ΡΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ², ΠΈΠ·Π²Π»Π΅ΡΡΠ½Π½ΡΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΡΠΌΠΈ ΡΠ»ΠΎΡΠΌΠΈ CNN Ρ ΡΠΌΠ΅Π½ΡΡΠ°ΡΡΠ΅ΠΉΡΡ ΡΠ°Π·ΠΌΠ΅ΡΠ½ΠΎΡΡΡΡ, ΡΠ°ΡΡΠΌΠ°ΡΡΠΈΠ²Π°ΡΡΡΡ ΠΊΠ°ΠΊ Π½Π΅ΠΊΠ°Ρ ΠΈΠ΅ΡΠ°ΡΡ ΠΈΡΠ΅ΡΠΊΠ°Ρ Β«ΠΏΠΈΡΠ°ΠΌΠΈΠ΄Π°Β», Π½Π°Π·ΡΠ²Π°Π΅ΠΌΠ°Ρ bottom-up pathway. ΠΡΠΈ ΡΡΠΎΠΌ ΠΊΠ°ΡΡΡ ΠΏΡΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈ Π½ΠΈΠΆΠ½ΠΈΡ , ΠΈ Π²Π΅ΡΡ Π½ΠΈΡ ΡΡΠΎΠ²Π½Π΅ΠΉ ΠΏΠΈΡΠ°ΠΌΠΈΠ΄Ρ ΠΎΠ±Π»Π°Π΄Π°ΡΡ ΡΠ²ΠΎΠΈΠΌΠΈ ΠΏΡΠ΅ΠΈΠΌΡΡΠ΅ΡΡΠ²Π°ΠΌΠΈ ΠΈ Π½Π΅Π΄ΠΎΡΡΠ°ΡΠΊΠ°ΠΌΠΈ: ΠΏΠ΅ΡΠ²ΡΠ΅ ΠΈΠΌΠ΅ΡΡ Π²ΡΡΠΎΠΊΠΎΠ΅ ΡΠ°Π·ΡΠ΅ΡΠ΅Π½ΠΈΠ΅, Π½ΠΎ Π½ΠΈΠ·ΠΊΡΡ ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΡΡ, ΠΎΠ±ΠΎΠ±ΡΠ°ΡΡΡΡ, ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΡ; Π²ΡΠΎΡΡΠ΅ β Π½Π°ΠΎΠ±ΠΎΡΠΎΡ:
ΠΡΡ ΠΈΡΠ΅ΠΊΡΡΡΠ° FPN ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΠΈΡΡ Π΄ΠΎΡΡΠΎΠΈΠ½ΡΡΠ²Π° Π²Π΅ΡΡ Π½ΠΈΡ ΠΈ Π½ΠΈΠΆΠ½ΠΈΡ ΡΠ»ΠΎΡΠ² ΠΏΡΠΈ ΠΏΠΎΠΌΠΎΡΠΈ Π΄ΠΎΠ±Π°Π²Π»Π΅Π½ΠΈΡ top-down pathway ΠΈ lateral connections. ΠΠ»Ρ ΡΡΠΎΠ³ΠΎ ΠΊΠ°ΡΡΠ° ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Π²ΡΡΠ΅Π»Π΅ΠΆΠ°ΡΠ΅Π³ΠΎ ΡΠ»ΠΎΡ ΡΠ²Π΅Π»ΠΈΡΠΈΠ²Π°Π΅ΡΡΡ Π΄ΠΎ ΡΠ°Π·ΠΌΠ΅ΡΠ° Π½ΠΈΠΆΠ΅Π»Π΅ΠΆΠ°ΡΠ΅Π³ΠΎ ΠΈ ΠΈΡ ΡΠΎΠ΄Π΅ΡΠΆΠΈΠΌΠΎΠ΅ ΠΏΠΎΡΠ»Π΅ΠΌΠ΅Π½ΡΠ½ΠΎ ΡΠΊΠ»Π°Π΄ΡΠ²Π°Π΅ΡΡΡ. Π ΠΈΡΠΎΠ³ΠΎΠ²ΡΡ ΠΏΡΠ΅Π΄ΡΠΊΠ°Π·Π°Π½ΠΈΡΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡΡΡΡ ΡΠ΅Π·ΡΠ»ΡΡΠΈΡΡΡΡΠΈΠ΅ ΠΊΠ°ΡΡΡ Π²ΡΠ΅Ρ ΡΡΠΎΠ²Π½Π΅ΠΉ.
Π‘Ρ Π΅ΠΌΠ°ΡΠΈΡΠ½ΠΎ ΡΡΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΈΠ·ΠΎΠ±ΡΠ°Π·ΠΈΡΡ ΡΠ°ΠΊ:
Π£Π²Π΅Π»ΠΈΡΠ΅Π½ΠΈΠ΅ ΡΠ°Π·ΠΌΠ΅ΡΠ° ΠΊΠ°ΡΡΡ Π²Π΅ΡΡ Π½Π΅Π³ΠΎ ΡΡΠΎΠ²Π½Ρ (upsampling) Π΄Π΅Π»Π°Π΅ΡΡΡ ΡΠ°ΠΌΡΠΌ ΠΏΡΠΎΡΡΡΠΌ ΠΌΠ΅ΡΠΎΠ΄ΠΎΠΌ β nearest neighbor, Ρ. Π΅. ΠΏΡΠΈΠ±Π»ΠΈΠ·ΠΈΡΠ΅Π»ΡΠ½ΠΎ ΡΠ°ΠΊ:
ΠΠΎΠ»Π΅Π·Π½ΡΠ΅ ΡΡΡΠ»ΠΊΠΈ
ΠΡΠΈΠ³ΠΈΠ½Π°Π»ΡΠ½ΡΠ΅ Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΡ Ρ ΠΈΡΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΡΠΌΠΈ Π½Π° arXiv.org:
ΠΠ° medium.com Π½Π° ΡΠ΅ΠΌΡ Mask R-CNN Π΄ΠΎΡΡΠ°ΡΠΎΡΠ½ΠΎ ΠΌΠ½ΠΎΠ³ΠΎ ΡΡΠ°ΡΠ΅ΠΉ, ΠΎΠ½ΠΈ Π»Π΅Π³ΠΊΠΎ Π½Π°Ρ ΠΎΠ΄ΡΡΡΡ ΠΏΠΎΠΈΡΠΊΠΎΠΌ. Π ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ ΡΡΡΠ»ΠΎΠΊ ΠΏΡΠΈΠ²ΠΎΠΆΡ ΡΠΎΠ»ΡΠΊΠΎ ΡΠ΅, ΡΡΠΎ Π΄ΠΎΠ²Π΅Π»ΠΎΡΡ ΠΏΡΠΎΡΠΈΡΠ°ΡΡ:
6. Simple Understanding of Mask RCNN β ΠΊΡΠ°ΡΠΊΠΎΠ΅ ΠΈΠ·Π»ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΏΡΠΈΠ½ΡΠΈΠΏΠΎΠ² ΡΠ΅Π·ΡΠ»ΡΡΠΈΡΡΡΡΠ΅ΠΉ Π°ΡΡ ΠΈΡΠ΅ΠΊΡΡΡΡ.
7. A Brief History of CNNs in Image Segmentation: From R-CNN to Mask R-CNN β ΠΈΡΡΠΎΡΠΈΡ ΡΠ°Π·Π²ΠΈΡΠΈΡ ΡΠ΅ΡΠΈ Π² ΡΠ°ΠΊΠΎΠΌ ΠΆΠ΅ Ρ ΡΠΎΠ½ΠΎΠ»ΠΎΠ³ΠΈΡΠ΅ΡΠΊΠΎΠΌ ΠΏΠΎΡΡΠ΄ΠΊΠ΅, ΠΊΠ°ΠΊ Π² Π΄Π°Π½Π½ΠΎΠΉ ΡΡΠ°ΡΡΠ΅.
8. From R-CNN to Mask R-CNN β Π΅ΡΡ ΠΎΠ΄Π½ΠΎ ΡΠ°ΡΡΠΌΠΎΡΡΠ΅Π½ΠΈΠ΅ ΡΡΠ°ΠΏΠΎΠ² ΡΠ°Π·Π²ΠΈΡΠΈΡ.
9. Splash of Color: Instance Segmentation with Mask R-CNN and TensorFlow β ΡΠ΅Π°Π»ΠΈΠ·Π°ΡΠΈΡ Π½Π΅ΠΉΡΠΎΡΠ΅ΡΠΈ Π² Opensource-Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ΅ ΠΎΡ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠΈ Matterport.
ΠΠΎΡΠ»Π΅Π΄Π½ΡΡ ΡΡΠ°ΡΡΡ ΠΏΠΎΠΌΠΈΠΌΠΎ ΠΎΠΏΠΈΡΠ°Π½ΠΈΡ ΠΏΡΠΈΠ½ΡΠΈΠΏΠΎΠ² Mask R-CNN ΠΏΡΠ΅Π΄Π»Π°Π³Π°Π΅Ρ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΡ ΠΏΠΎΠΏΡΠΎΠ±ΠΎΠ²Π°ΡΡ ΡΠ΅ΡΡ Π½Π° ΠΏΡΠ°ΠΊΡΠΈΠΊΠ΅: Π΄Π»Ρ ΡΠ°ΡΠΊΡΠ°ΡΠΈΠ²Π°Π½ΠΈΡ ΡΠ°Π·Π½ΡΠΌΠΈ ΡΠ²Π΅ΡΠ°ΠΌΠΈ Π²ΠΎΠ·Π΄ΡΡΠ½ΡΡ ΡΠ°ΡΠΎΠ² Π½Π° ΡΡΡΠ½ΠΎ-Π±Π΅Π»ΡΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΡΡ .
ΠΠΎΠΌΠΈΠΌΠΎ ΡΡΠΎΠ³ΠΎ, ΠΏΠΎΠΏΡΠ°ΠΊΡΠΈΠΊΠΎΠ²Π°ΡΡΡΡ Ρ Π½Π΅ΠΉΡΠΎΡΠ΅ΡΡΡ ΠΌΠΎΠΆΠ½ΠΎ Π½Π° ΡΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΡΡΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»Π°ΡΡ ΠΌΠ½ΠΎΠΉ Π² ΡΠΎΡΠ΅Π²Π½ΠΎΠ²Π°Π½ΠΈΠΈ Data Science Bowl 2018 Π½Π° kaggle (Π½ΠΎ Π½Π΅ ΡΠΎΠ»ΡΠΊΠΎ Ρ ΠΎΠ΄Π½ΠΎΠΉ ΡΡΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΡΡ, ΡΠ°Π·ΡΠΌΠ΅Π΅ΡΡΡ; Π² ΡΠ°Π·Π΄Π΅Π»Π°Ρ Kernels ΠΈ Discussions ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡΠΈ ΠΌΠ½ΠΎΠ³ΠΎ Π²ΡΠ΅Π³ΠΎ ΠΈΠ½ΡΠ΅ΡΠ΅ΡΠ½ΠΎΠ³ΠΎ):
10. Mask R-CNN in PyTorch by Heng CherKeng. Π Π΅Π°Π»ΠΈΠ·Π°ΡΠΈΡ ΠΏΡΠ΅Π΄ΠΏΠΎΠ»Π°Π³Π°Π΅Ρ ΡΡΠ΄ ΡΠ°Π³ΠΎΠ² ΠΏΠΎ ΡΠ°Π·Π²ΡΡΡΡΠ²Π°Π½ΠΈΡ, ΠΈΠ½ΡΡΡΡΠΊΡΠΈΡ Π°Π²ΡΠΎΡ ΠΏΡΠ΅Π΄ΠΎΡΡΠ°Π²Π»ΡΠ΅Ρ. ΠΠΎΠ΄Π΅Π»Ρ ΡΡΠ΅Π±ΡΠ΅Ρ PyTorch 0.4.0, ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΡ GPU-Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΠΉ, NVIDIA CUDA. ΠΡΠ»ΠΈ ΡΠΎΠ±ΡΡΠ²Π΅Π½Π½Π°Ρ ΡΠΈΡΡΠ΅ΠΌΠ° Π½Π΅ ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²ΡΠ΅Ρ ΡΡΠ΅Π±ΠΎΠ²Π°Π½ΠΈΡΠΌ, ΠΌΠΎΠ³Ρ ΠΏΠΎΡΠ΅ΠΊΠΎΠΌΠ΅Π½Π΄ΠΎΠ²Π°ΡΡ ΠΎΠ±ΡΠ°Π·Ρ Deep Learning AMI Π΄Π»Ρ Π²ΠΈΡΡΡΠ°Π»ΠΎΠΊ Amazon (ΠΈΠ½ΡΡΠ°Π½ΡΡ ΠΏΠ»Π°ΡΠ½ΡΠ΅, Ρ ΠΏΠΎΡΠ°ΡΠΎΠ²ΠΎΠΉ ΡΠ°ΡΠΈΡΠΈΠΊΠ°ΡΠΈΠ΅ΠΉ, ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡΠ½ΡΠΉ ΠΏΠΎΠ΄Ρ ΠΎΠ΄ΡΡΠΈΠΉ ΡΠ°Π·ΠΌΠ΅Ρ, ΡΡΠ΄Ρ ΠΏΠΎ Π²ΡΠ΅ΠΌΡ, β p2.xlarge).
ΠΠ½Π΅ ΡΠ°ΠΊΠΆΠ΅ ΠΏΠΎΠΏΠ°Π΄Π°Π»Π°ΡΡ Π·Π΄Π΅ΡΡ, Π½Π° Ρ Π°Π±ΡΠ΅, ΡΡΠ°ΡΡΡ ΠΏΡΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ ΡΠ΅ΡΠΈ ΠΎΡ Matterport Π² ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ΅ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ Ρ Π±Π»ΡΠ΄Π°ΠΌΠΈ (ΠΏΡΠ°Π²Π΄Π°, Π±Π΅Π· ΠΈΡΡ ΠΎΠ΄Π½ΠΈΠΊΠΎΠ²). ΠΠ°Π΄Π΅ΡΡΡ, Π°Π²ΡΠΎΡ Π±ΡΠ΄Π΅Ρ ΡΠΎΠ»ΡΠΊΠΎ ΡΠ°Π΄ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΠΎΠΌΡ ΡΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΡ: