본문 바로가기
Paper Review

RINDNet: Edge Detection for Discontinuity in Reflectance, Illumination, Normal and Depth : 논문 리뷰

by Yuchulnote 2023. 10. 16.
728x90

3줄 요약

  • 4가지 유형의 Edge(에지) Reflectance, Illumination, Normal, Depth(반사율, 조명, 정상 및 깊이)를 공동으로 감지하기 위한 새로운 신경망 솔루션인 RINDNet을 제안한다.
  • 제안된 방법은 세 단계로 작동하며 어텐션 모듈을 사용하여 에지 유형 간의 기본 관계를 캡처한다.
  • 실험 결과는 RINDNet이 최첨단 에지 감지 알고리즘과 비교하여 유망한 결과를 낳는다는 것을 보여준다. 따라서 이 논문은 RINDNet이 네 가지 유형의 에지를 모두 동시에 감지하는 효과적인 솔루션이라고 결론지었다.

 

→ 논문에서 두 명의 라벨링(주석처리자)가 필요하고, 정말 섬세한 작업을 요한다고 한다.

기본적으로 모델 학습시에 라벨링이 필요하기는 하지만 공수가 클 것으로 보인다.

 

Abstract

본 논문은 Reflectance, Illumination, Normal, Depth의 네 가지 유형의 edge를 공동으로 검출하기 위한 RINDNet이라는 신경망 솔루션을 제안한다.

RINDNet은 3단계로 작동하며 어텐션 모듈을 사용하여 에지 유형 간의 기본 관계를 캡처한다.

또한 교육 및 평가를 위한 최초의 공개 벤치마크인 BSDS-RIND를 제시한다.

https://github.com/MengyangPu/RINDNet

 

GitHub - MengyangPu/RINDNet: RINDNet: Edge Detection for Discontinuity in Reflectance, Illumination, Normal and Depth, in ICCV 2

RINDNet: Edge Detection for Discontinuity in Reflectance, Illumination, Normal and Depth, in ICCV 2021 (oral) - GitHub - MengyangPu/RINDNet: RINDNet: Edge Detection for Discontinuity in Reflectance...

github.com

 

Introduction

이 논문의 소개에서는 컴퓨터 비전 작업에서 Edge의 중요성과 실제 적용으로 인해 특정 Edge-Detection이 어떻게 주목을 받고 있는지 강조한다.

이미지 내의 object 가장자리에 발생할 수 있는 네 가지 기본 방식인 surface-reflectance discontinuity(표면 반사 불연속성), illumination discontinuity(조명 불연속성), surface-normal discontinuity(표면 법선 불연속성) 및 depth discontinuity(깊이 불연속성)에 중점을 둔다.

또한 최근 연구에서 이러한 유형의 에지가 다운스트림 작업에 도움이 된다는 것을 보여주었다고 언급한다.

 

Conclusion

이 논문은 4가지 유형의 에지(반사율, 조명, 정상 및 깊이)를 공동으로 감지하기 위한 새로운 신경망 솔루션인 RINDNet을 제안한다.

제안된 방법은 세 단계로 작동하며 어텐션 모듈을 사용하여 에지 유형 간의 기본 관계를 캡처한다.

실험 결과는 RINDNet이 최첨단 에지 감지 알고리즘과 비교하여 유망한 결과를 낳는다는 것을 보여준다.

따라서 이 논문은 RINDNet이 네 가지 유형의 에지를 모두 동시에 감지하는 효과적인 솔루션이라고 결론지었다.

 

Annotation process

고품질 에지 데이터 세트를 구성하는 프로세스에는 수동 레이블 지정, 확인 및 수정이 포함된다.

주석은 ByLabel을 사용하여 수동으로 구성되며 두 명의 주석자가 협력하여 각 이미지에 레이블을 지정한다.

한 주석자는 가장자리에 레이블을 지정하고 다른 주석자는 결과를 확인하고 누락된 가장자리를 보완할 수 있다.

두 annotator 가 서로 동의하면 레이블이 있는 에지가 최종 데이터 세트에 직접 추가된다.

모호한 가장자리는 두 주석 작성자가 함께 수정하고 일관된 주석은 논의 후 제공된다.

형성의 주요 요소를 결정하기 어려운 일부 가장자리의 경우 여러 레이블이 지정된다.

이 경우 BSDS-RIND에서 다중 레이블이 있는 약 53k(2%) 픽셀만 있다.

평균 IoU(Intersection-over-Union) 점수는 두 어노테이터 간의 일치도를 측정하는 데 사용되며 통계는 양호한 일관성을 보여준다.

총 500개의 이미지에 신중하게 주석이 추가되어 BSDS-RIND라는 조밀하게 주석이 달린 데이터 세트가 생성하고, 데이터 세트는 각각 300개의 훈련 이미지와 200개의 테스트 이미지로 분할된다.

BSDS-RID 훈련 및 테스트 세트의 각 유형에 대한 총 픽셀 수는 그림 1에 보고되어 있고, BSDS-RIND의 가장자리 픽셀 수는 BSDS의 두 배이다.

가장자리 감지는 픽셀 단위 작업이며 BSDS-RIND에서 제공하는 샘플 수는 학습 기반 알고리즘을 적절하게 지원한다.

 

RINDNet

Stage 1.

백본 구조로 ResNet-50 을 사용하고 ResNet-50 백본은 이미지의 모든 가장자리에 대한 공통 기능을 추출하는 데 사용되며 이러한 기능에서 공간 신호가 생성된다.

CNN 기능의 서로 다른 계층은 서로 다른 수준의 모양/의미 정보를 인코딩하며 다단계 공간 응답은 서로 다른 기능 맵 계층에서 캡처된다.

 

Stage 2.

제안된 RINDNet 방법의 II단계에서는 네트워크가 분기되어 반사율, 조명, 법선 및 깊이의 4가지 유형의 에지 각각에 대한 식별 기능을 준비한다.

이는 각 에지 유형에 해당하는 디코더에 의해 수행되며 디코더는 고유한 속성과 이들 간의 관계를 고려하여 각 유형의 에지에 대한 효과적인 표현을 학습한다.

그런 다음 이러한 구별 기능은 각 유형의 가장자리에 대한 초기 결과를 예측하기 위해 III 단계에서 사용된다.

 

Stage 3.

제안된 RINDNet 방법의 III단계에서 네트워크는 각 결정 헤드에 의해 각 유형의 에지에 대한 초기 결과를 예측한다.

에지의 풍부한 위치 정보를 포함하는 이전 단계의 기능은 에지를 예측하는 데 사용되며 디코딩된 특징은 공간 단서와 연결되어 반사 및 조명 가장자리를 예측한다.

네트워크 훈련은 실측 레이블과 예측 결과 사이의 일부 손실 함수를 최소화하여 훈련 이미지에 대해 수행된다.

목표는 네 가지 유형의 에지 모두에 대한 최종 예측을 생성하는 것이다.

 

Attention Module

제안된 RINDNet 방법의 어텐션 모듈은 4가지 유형의 에지(반사율, 조명, 법선 및 깊이) 모두에 대한 어텐션 맵을 학습한다. 이러한 attention map은 서로 다른 유형의 에지 간의 기본 관계를 캡처한다.

attention map은 최종 에지 감지 결과를 생성하기 위해 결정 헤드가 예측한 초기 결과와 결합된다.

어텐션 모듈의 원래 ground-truth 레이블을 사용할 수 없기 때문에 일반 에지의 ground-truth 레이블은 어텐션 모듈의 감독으로 사용된다.

Attention 모듈은 Focal Loss와 Attention 모듈의 출력의 조합으로 정의되는 총 손실을 최소화하여 최적화 된다.

728x90
반응형