속도 < 방향

Rethinking on Multi-Stage Networks for Human Pose Estimation 논문 리뷰와 Summary 본문

개발/Paper

Rethinking on Multi-Stage Networks for Human Pose Estimation 논문 리뷰와 Summary

import max 2022. 2. 17. 10:41

[업데이트 : 2022-02-17]

논문 : Rethinking on Multi-Stage Networks for Human Pose Estimation

 

2019년에 발표된

Rethinking on Multi-Stage Networks for Human Pose Estimation

논문의 Summary 겸 리뷰를 적어보려고 합니다.

글을 쓰기에 앞서, 공부를 위해 논문을 보며 요약, 작성한 내용이라 간혹 오역이나 잘못된 내용이 있을 수 있습니다.

핵심 키워드는 highlight를 해두었습니다. 틀린 부분은 댓글로 알려주시면 감사하겠습니다^^ 

편의상 경어체를 빼고 작성합니다.


시작하기 전에

내가 뽑은 키워드 : Pose estimation, bottleneck, 단일 단계 (single-stage) , 복합 단계 (multi-stage)

 

Abstract

포즈 추정(pose estimation)은 단일 단계 (single-stage)복합 단계 (multi-stage) 방법으로 나뉘는데 복합 단계단일 단계만큼 성능이 좋지 않다. 이 연구에서는 MS COCO 와 MPII Human Pose 데이터셋을 활용하여 단일 단계 디자인, 교차 단계 기능 집합 및 지도 학습을 활용한 미세한 조정을 통해 성능을 개선하였다.

 

Introduction

 

최근 human pose estimation 분야는 심층 신경망 구조를 사용함으로써 빠른 성장을 해오고 있다. 좋은 성능을 보여주는 방법은 단일 단계 를 백본(back-bone) 네트워크로 사용하고 있다. 예를 들어 최근의 COCO (데이터셋을 활용한) 챌린지의 우승자는 Res-Inception 를 사용하였고 baseline은 ResNet 기반이다. pose estimation은 높은 공간 해상도를 요구하기 때문에 깊은 피처의 공간 해상도를 높이기 위해 백본 네트워크 뒤에 upsamling 또는 deconvolution 하는 과정이 추가된다.

또 다른 방법인 복합 단계 아키텍쳐의 경우 각 단계는 단순한 경량 네트워크이며 자체 다운 샘플링 및 업샘플링 경로를 포함한다. 단계 사이의 feature map (혹은 히트맵) 은 고해상도로 유지된다. 모든 단계는 미세한 지도학습 기반으로 이루어져 있으며, 겉보기에는 multi-stage가 pose estimation에 더 적합해 보인다. 고해상도를 가능하게 하고 더 유연하기 때문인데, 이는 데이터셋마다 다른 결과를 보여준다는 사실을 발견하였다.

이 연구에서는 위의 문제가 발생하는 것이 설계의 부족 때문이라고 지적하며 3가지 개선된 MSPN(Multi-stage Pose Estimationnetwork)을 제안한다.
첫째, 복합 단계 방법의 단일 단계의 모듈이 좋지 않다는 사실을 발견하였다. 예를 들어 Hourglass의 모듈의 경우 모든 블록(업샘플링, 다운샘플링) 에 동일한 폭의 채널을 사용하는데 이것은 ResNet의 아키텍쳐와 완벽히 모순되는 내용이다. 대신에, 이미 존재하는 단일 단계 네트워크 구조 중 좋은 것(CPN사의 GlobalNet)을 발견하는 것만으로도 충분하다고 본다.
둘째, 위아래로 반복되는 샘플링때문에 정보가 손실될 가능성이 더 커지고 최적화가 더 어려워진다. 이를 해결하기 위해 여러 단계에 걸쳐 feature들을 종합할 것을 제안한다.
마지막으로, 복합 단계를 통해 pose localization 정확도(accuracy)가 개선되는 것을 관찰하며 미세한 지도학습을 적용한다. 

Related work

최근의 pose estimation 연구 분야는 심층 신경망(DCNN) 을 사용하며 많은 발전이 있었고, 최근 연구 동향에 따르면 단일 단계복합 단계의 두 범주로 나누어서 접근해야 한다.

◆ Single-Stage Approch

단일 단계 접근 방법은 기본적으로 이미지 분류(image classsification) task 를 해결하기 위한 백본 네트워크로 이루어져있다. 이를테면 VGG, ResNet, Mask R-CNN, CPN(Cascade Pyramid Network) 등. 하지만 이들은 우수한 성능에도 불구하고 공통적으로 병목 현상(bottleneck)을 겪었는데, 단순히 모델 용량을 늘린다고 성능이 개선되지는 않는다는 것이다. 
그림 1과 표 1을 통해 이를 확인할 수 있다.

 

◆ Multi-Stage Approch

복합 단계 접근 방법은 점점 더 정교한 추정을 목표로 하며 이는 상향식 (bottom-up) 방법과 하향식 (Top-down) 방법이 있다. 하지만 단일 단계 방법은 모두 하향식이다.

상향식 방법은 이미지의 개별 관절을 예측한 다음 이 관절을 사람의 instance에 연결한다. 예를 들어 VGG-19 네트워크를 feature encoder로 사용하고 출력 feature은 네트워크를 거쳐 heat map과 key point의 연관성을 생성할 수 있다.

하향식 방법은 먼저 detector를 통해 사람을 찾은 다음 핵심 포인트의 위치를 예측하고, 자세를 추정하기 위해 encoder로 심층 신경망을 사용한다. 이러한 복합 단계의 방법은 MPII 데이터 셋에선 잘 작동하지만 더 복잡한 COCO 데이터 셋에서는 경쟁력이 없다. 최근의 COCO 챌린지 우승자 또한 단일단계 기반의 단순 베이스라인 작업을 진행했고, 이 연구에서는 기존 복합 단계 아키텍처에 몇 가지를 수정하여 다단계(복합단계) 아키텍처가 훨씬 낫다는 것을 보여준다.

 

 

Multi-Stage Pose Network(MSPN)

 

이 연구에서는 두 단계로 하향식(top-down) 접근방식을 채택했는데, 첫번째 단계에서는 기성품인 human detector를 채택하였고, 두번째로는 MSPN을 바운딩 박스에 적용하여 결과를 생성하였다. MSPN은 3가지 개선사항을 제안한다.
먼저, 기존 단일 단계 모듈의 결함을 분석하고 최근(sota)의 단일단계 pose network가 쉽게 사용되는 이유를 설명한다. 다음으로, 정보 손실을 줄이기 위해 초기에서 후기 단계로 정보를 전파하며 기능을 수집하는 전랴을 제안한다. 마지막으로, coarse-to-fine (미세 감독) 지도학습의 사용법을 소개하며 localization 정확도에서 더욱더 세밀하게 적용할 수 있는 방법을 제안한다.