[컴퓨터 비전의 모든 것] Panoptic Segmentation & Landmark Localization
2024. 12. 20. 03:48ㆍMOOC
Panoptic Segmentation
What is Panoptic Segmentation?
Panoptic Segmentation은 instance segmentation과 semantic segmentation을 결합한 기법이다.
- Instance segmentation: 개별 물체를 구분.
- Semantic segmentation: 물체뿐만 아니라 배경 정보까지 인식.
Panoptic Segmentation은 이러한 두 가지 영역을 통합하여, 이미지 내의 모든 픽셀을 특정 클래스(물체 또는 배경)에 할당하고, 물체의 개별적인 인스턴스도 구분한다.
UPSNet
UPSNet은 Panoptic Segmentation을 수행하기 위한 모델로, 다음과 같은 구조를 가진다:
- Backbone Network
- FPN(Feature Pyramid Network)을 backbone으로 활용.
- Head Branches
- Semantic Head: 배경과 물체를 포함한 semantic segmentation 결과 생성.
- Instance Head: 물체의 인스턴스를 분리하여 mask를 생성.
- Panoptic Head
- Semantic Head와 Instance Head의 출력을 결합하여 최종 panoptic segmentation map을 생성.
Panoptic Head의 상세 과정:
- Semantic Mask 처리
- 배경을 예측하는 mask는 최종 출력에 바로 사용.
- 물체 부분을 mask 처리하여 instance 정보와 결합.
- Unknown Class 처리
- Instance로 사용되지 않은 부분을 unknown class로 처리.
- 최종 출력에 포함.
VPSNet
VPSNet은 Panoptic Segmentation을 비디오 처리로 확장한 모델이다.
주요 특징:
- Motion Map
- 시간 차이를 가지는 두 프레임 간의 움직임(motion)을 표현.
- 이전 프레임의 feature map을 motion map으로 warping하여 현재 프레임의 feature map에 결합.
- 시간적으로 연속적이고 부드러운 segmentation map 생성.
- Tracking Head
- ROI(Region of Interest) feature를 추출하여, 물체 ID를 추적.
- 동일한 물체는 시간이 지나도 같은 ID를 유지하도록 matching.
- Panoptic Segmentation Map 생성
- UPSNet과 유사하게 Bounding Box Head, Mask Head, Semantic Head의 출력을 결합하여 최종 panoptic segmentation map을 생성.
Landmark Localization
What is Landmark Localization?
Landmark Localization은 물체의 특정 중요한 부분(landmark)을 추정하고 추적하는 작업이다.
- 응용 분야: 얼굴 인식, 포즈 추정, 신체 추적 등.
방법론 비교
- Coordinate Regression
- Bounding Box Regression과 유사하게 landmark의 좌표값을 직접 회귀(regression)로 예측.
- 정확도가 낮고 bias가 발생하기 쉬움.
- Heatmap Classification
- 각 픽셀에 대해 landmark가 위치할 확률을 계산하여 classification 수행.
- 높은 성능을 달성하지만 계산량이 크다는 단점.
Heatmap 기반 Landmark Localization
- Heatmap 생성
- 각 landmark의 좌표를 Gaussian 분포로 변환하여 heatmap 생성.
- Heatmap은 각 픽셀의 confidence를 시각적으로 표현.
- Hourglass Network
- U-Net과 유사한 구조로 downsampling과 upsampling을 반복.
- Skip connection을 통해 low-level feature를 고려.
- Low-level feature map을 별도의 convolution layer를 통과시키고, concatenation 대신 합산 방식을 사용.
DensePose
DensePose는 신체 전체의 landmark를 추정하여 3D 정보를 복원하는 모델이다.
UV Map
- 표준 3D 모델의 좌표를 U축과 V축으로 펼쳐 2D 형태로 변환.
- UV Map과 3D Mesh의 매핑 관계는 고정적이며, UV Map 좌표를 활용하여 3D Mesh를 복원 가능.
DensePose의 구조
- Faster R-CNN 구조를 기반으로 3D Surface Regression Branch를 추가.
- UV Map을 출력하여 2D CNN을 통해 3D 정보를 예측.
Multi-task Branch
FPN을 backbone으로 사용하고, task에 따라 적절한 head를 추가하여 다양한 작업을 동시에 수행하는 구조다.
- 장점: Multi-task 학습을 통해 backbone network가 더 robust하게 학습된다.
'MOOC' 카테고리의 다른 글
[컴퓨터 비전의 모든 것] Conditional Generative Model (1) | 2024.12.20 |
---|---|
[컴퓨터 비전의 모든 것] Detecting Objects as Keypoints (1) | 2024.12.20 |
[컴퓨터 비전의 모든 것] Instance Segmentation (3) | 2024.12.20 |
[컴퓨터 비전의 모든 것] CNN Visualization (3) : 결과 분석 (0) | 2024.12.20 |
[컴퓨터 비전의 모든 것] CNN Visualization (2) : 시각화 방법 (3) | 2024.12.20 |