[컴퓨터 비전의 모든 것] Instance Segmentation
2024. 12. 20. 03:40ㆍMOOC
What is Instance Segmentation?
Instance Segmentation은 semantic segmentation과 유사하지만, 같은 클래스 내에서도 개체를 개별적으로 구분한다는 점에서 차이가 있다. 이를 통해 각 개체를 독립적으로 인식하고 처리할 수 있어 응용 가능성이 높다. 예를 들어, 한 이미지에 여러 마리의 강아지가 있을 때, 각각의 강아지를 분리하여 분석할 수 있다.
Instance Segmentation 모델은 일반적으로 object detection 기술을 기반으로 한다. Object detection이 bounding box로 개체를 구분한다면, instance segmentation은 이를 더욱 세분화하여 픽셀 단위로 구분한다.
Instance Segmenters
1. Mask R-CNN
Mask R-CNN은 Faster R-CNN을 확장한 모델로, instance segmentation의 대표적인 two-stage 모델이다. 주요 특징은 다음과 같다:
- ROIAlign
- Faster R-CNN에서는 ROI Pooling 기법을 사용하여 정수 좌표 기반의 pooling만 지원했다.
- Mask R-CNN에서는 ROIAlign을 도입하여 소수점 픽셀 수준의 정밀한 pooling이 가능하다. 이는 interpolation을 기반으로 한다.
- Mask Branch
- 기존의 classification과 box regression head 외에 별도의 mask branch를 추가하였다.
- Mask branch는 각 bounding box에 대해 모든 클래스에 대한 binary mask를 생성한다.
- Classification head의 결과를 기반으로 해당 클래스의 mask를 선택하여 최종 결과를 생성한다.
- 결과적으로 Mask R-CNN은 Faster R-CNN에 Mask branch를 결합한 구조로 이해할 수 있다.
2. YOLACT
YOLACT는 single-stage 구조를 가진 instance segmentation 모델로, 빠른 속도를 특징으로 한다. 주요 특징은 다음과 같다:
- Feature Pyramid Backbone
- 고해상도의 feature map을 활용하기 위해 Feature Pyramid 구조를 backbone으로 사용한다.
- Mask Prototype
- Mask 대신, **프로토타입(mask prototype)**을 추출하여 사용한다.
- 프로토타입은 실제 mask는 아니지만, 여러 개의 물체에 대해 soft segmentation을 나타내는 구성 요소이다.
- 선형대수적 관점에서 프로토타입은 basis(기저)와 유사한 역할을 한다.
- Mask Coefficients
- Prediction head에서 프로토타입과 선형 결합하기 위한 계수(mask coefficients)를 생성한다.
- 프로토타입과 계수를 결합하여 최종적인 response map을 생성한다.
3. YOLACTEdge
YOLACT의 속도를 더욱 개선한 모델로, edge device에서도 사용할 수 있을 만큼 빠른 성능을 제공한다. 주요 개선점은 다음과 같다:
- Key Frame Feature 전달
- 이전 프레임에서 key frame에 해당하는 feature를 저장하고, 이를 다음 프레임으로 전달하여 feature map 계산량을 줄인다.
- 효율적인 속도
- YOLACT에 비해 훨씬 빠른 속도를 제공하며, 성능 저하는 최소화하였다.
Instance Segmentation의 응용
Instance segmentation은 컴퓨터 비전의 다양한 응용 분야에서 중요한 역할을 한다.
- 자율주행: 도로 위의 자동차, 보행자, 신호등 등을 픽셀 단위로 구분하여 분석.
- 의료 영상 분석: 병변 영역과 정상 조직을 개별적으로 분리.
- 증강현실(AR): 사용자의 손이나 특정 물체를 정교하게 추적.
'MOOC' 카테고리의 다른 글
[컴퓨터 비전의 모든 것] Detecting Objects as Keypoints (1) | 2024.12.20 |
---|---|
[컴퓨터 비전의 모든 것] Panoptic Segmentation & Landmark Localization (0) | 2024.12.20 |
[컴퓨터 비전의 모든 것] CNN Visualization (3) : 결과 분석 (0) | 2024.12.20 |
[컴퓨터 비전의 모든 것] CNN Visualization (2) : 시각화 방법 (3) | 2024.12.20 |
[컴퓨터 비전의 모든 것] CNN Visualization (1) : 동작 원리 (2) | 2024.12.20 |