[컴퓨터 비전의 모든 것] Instance Segmentation

2024. 12. 20. 03:40MOOC

What is Instance Segmentation?

Instance Segmentation은 semantic segmentation과 유사하지만, 같은 클래스 내에서도 개체를 개별적으로 구분한다는 점에서 차이가 있다. 이를 통해 각 개체를 독립적으로 인식하고 처리할 수 있어 응용 가능성이 높다. 예를 들어, 한 이미지에 여러 마리의 강아지가 있을 때, 각각의 강아지를 분리하여 분석할 수 있다.

Instance Segmentation 모델은 일반적으로 object detection 기술을 기반으로 한다. Object detection이 bounding box로 개체를 구분한다면, instance segmentation은 이를 더욱 세분화하여 픽셀 단위로 구분한다.


Instance Segmenters

1. Mask R-CNN

Mask R-CNN은 Faster R-CNN을 확장한 모델로, instance segmentation의 대표적인 two-stage 모델이다. 주요 특징은 다음과 같다:

  1. ROIAlign
    • Faster R-CNN에서는 ROI Pooling 기법을 사용하여 정수 좌표 기반의 pooling만 지원했다.
    • Mask R-CNN에서는 ROIAlign을 도입하여 소수점 픽셀 수준의 정밀한 pooling이 가능하다. 이는 interpolation을 기반으로 한다.
  2. Mask Branch
    • 기존의 classification과 box regression head 외에 별도의 mask branch를 추가하였다.
    • Mask branch는 각 bounding box에 대해 모든 클래스에 대한 binary mask를 생성한다.
    • Classification head의 결과를 기반으로 해당 클래스의 mask를 선택하여 최종 결과를 생성한다.
    • 결과적으로 Mask R-CNN은 Faster R-CNN에 Mask branch를 결합한 구조로 이해할 수 있다.


2. YOLACT

YOLACT는 single-stage 구조를 가진 instance segmentation 모델로, 빠른 속도를 특징으로 한다. 주요 특징은 다음과 같다:

  1. Feature Pyramid Backbone
    • 고해상도의 feature map을 활용하기 위해 Feature Pyramid 구조를 backbone으로 사용한다.
  2. Mask Prototype
    • Mask 대신, **프로토타입(mask prototype)**을 추출하여 사용한다.
    • 프로토타입은 실제 mask는 아니지만, 여러 개의 물체에 대해 soft segmentation을 나타내는 구성 요소이다.
    • 선형대수적 관점에서 프로토타입은 basis(기저)와 유사한 역할을 한다.
  3. Mask Coefficients
    • Prediction head에서 프로토타입과 선형 결합하기 위한 계수(mask coefficients)를 생성한다.
    • 프로토타입과 계수를 결합하여 최종적인 response map을 생성한다.


3. YOLACTEdge

YOLACT의 속도를 더욱 개선한 모델로, edge device에서도 사용할 수 있을 만큼 빠른 성능을 제공한다. 주요 개선점은 다음과 같다:

  1. Key Frame Feature 전달
    • 이전 프레임에서 key frame에 해당하는 feature를 저장하고, 이를 다음 프레임으로 전달하여 feature map 계산량을 줄인다.
  2. 효율적인 속도
    • YOLACT에 비해 훨씬 빠른 속도를 제공하며, 성능 저하는 최소화하였다.


Instance Segmentation의 응용

Instance segmentation은 컴퓨터 비전의 다양한 응용 분야에서 중요한 역할을 한다.

  • 자율주행: 도로 위의 자동차, 보행자, 신호등 등을 픽셀 단위로 구분하여 분석.
  • 의료 영상 분석: 병변 영역과 정상 조직을 개별적으로 분리.
  • 증강현실(AR): 사용자의 손이나 특정 물체를 정교하게 추적.