[CVPR Workshop Deep Vision 2020]Top-Down Networks: A coarse-to-fine reimagination of CNNs

생물학적 vision에서는 보통 물체를 인식할 때 Coarse-to-fine방식으로 진행됩니다. 이와 반대로 CNN 방법들은 보통 Fine-to- coarse 방식(=BottomUp)으로 물체를 인식합니다.
이 논문은 생물학적으로 볼때와 같이 Coarse-to-fine 방식(=TopDown)으로 집중하게 하여, 점진적인 visual attention 효과를 확인하게 합니다.
https://github.com/giannislelekas/topdown
contributions:
(i) 새로운 top-down 방식
(ii) top-down방식과 bottom-up 방식의 비교
(iii)제안하는 방식이 특정 attack에 강인함
pointwise attack
Blurring attack
spatial attack
(iv)이전방식(bottom-up)에 비해 설명가능성의 향상

TD가 BU에 비해 설명가능성이 향상한것을 확인할 수 있다. 예를들어 교회(4열)을 보면 TD방식은 교회의 십자가를 더 강하게 집중하고 있다

장면의 요지(gist)를 먼저 확인한 후, 더 자세한 정보를 받는다는것은 attention mask를 추가한다는 관점에서 합리적이라 생각합니다.

Leave a Reply Cancel reply

안녕하세요 우진님 댓글 감사합니다. 리뷰에서 말씀드렸다 싶이 예를들어 어떤 샘플이 현재 이미지 + 언어 프롬프트만 있고 2D 포즈/goal image가 없다면,…

좋은 질문 감사합니다. q–v를 각각 평가하거나 q와 여러 비디오를 한 번에 비교하는 방식은 계산적으로는 효율적이겠지만, LLM이 각 비디오를 절대적인 기준으로…

좋은 질문 감사합니다. X-CoT를 단순히 백본 모델의 오답을 고치는 '교정기' 라기보다는, 임베딩 유사도만으로는 잘 드러나지 않는 차이를 비교해 주는 보완…

안녕하세요 승현님, 좋은 리뷰 감사합니다! compatibility를 구할때 db 기반 점수와 llm 기반 점수의 곱을 사용한 이유가 llm이 가진 편향의 영향을…

안녕하세요 주영님, 좋은 리뷰 감사합니다. X-CoT가 CLIP과 같은 foundation model뿐만 아니라, 이미 좋은 성능을 가진 X-Pool 위에서도 일관된 성능 향상을…

[CVPR Workshop Deep Vision 2020]Top-Down Networks: A coarse-to-fine reimagination of CNNs

Author: 황 유진

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment