Category: Conference
Conference Reivew
[ICLR 2024] VISION TRANSFORMERS NEED REGISTERS
이번 논문은 Vision Transformers 기반 large model의 특징 표현력을 향상시키기 위해 원인을 찾아 분석하고 이에 대한 해결책을 제시한 논문입니다. 해당 기법에 주목하게 된 계기는 Vision…
[CVPR 2024] AffordanceLLM: Grounding Affordance from Vision Language Models
제가 이번에 리뷰할 논문도 Affordance Grounding 논문입니다. 지난번에 리뷰한 논문은 LLM이나 VLM을 활용하지는 않고, affordance 정보를 class로만 활용하였는데, 해당 논문은 VLM을 이용하여 affordance grounding의 일반화…
[NeurIPS 2023] Active Learning for Semantic Segmentation with Multi-class Label Query
안녕하세요. 허재연입니다. 오늘은 Segmentation분야의 Active Learning 논문을 가지고 았습니다. 포항공대에서 작성한 논문으로, 이번 KCCV2024 2일차에 포스터로 발표될 예정인 논문입니다. 지금까지 제가 읽은 AL분야 논문들에 모두…
[ICCV 2023] RankMixup: Ranking-Based Mixup Training for Network Calibration
안녕하세요, 허재연입니다. 얼마 후 KCCV에 참석할 예정인데, oral 및 poster 논문들을 몇개 미리 파악하고 참석하고자 합니다. 오늘 다룰 논문은 이런 취지로 미리 논문들을 살펴보다 읽어본…
[CVPR 2023]LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding
안녕하세요. 제가 이번에 리뷰할 논문은 물체와 상호작용을 위한 특정 영역을 인식하기 위한 Affordance Grounding 논문입니다. Abstract 사람은 관찰을 통해 지식을 습득하는 능력이 있어 새로운 물건을…
[ICML 2021] (CLIP) Learning Transferable Visual Models From Natural Language Supervision
Vision Language Model(VLM)의 근본인 CLIP 논문에 대해 리뷰해보겠습니다. 아이디어와 코드는 아주아주 간단한데, 현재시간 기준 19,543회의 인용률을 달성할 정도로 어마어마한 파급력을 가져온 논문이라는 것은 누구나 다…
[WACV 2024] Boosting Weakly Supervised Object Detection using Fusion and Priors from Hallucinated Depth
논문 이름이 꽤 깁니다. 금일 리뷰 하는 논문은 지난 GOOD 논문의 리뷰에 이어, Geometric Cue를 활용한 논문에 대해 읽어보고자 하였습니다. 해당 아이템을 제 논문에 적용하고…
[NerulPS 2022] Flamingo: a Visual Language Model for Few-Shot Learning
당분간 LMM 및 여러 VLM를 리뷰해보려고 하는데요, 이번에 리뷰할 논문은 구글 딥마인드에서 발표한 Visual Language Model(VLM)인 Flamingo 라는 논문입니다. 제목에서와 같이 Few-shot으로도 다양한 task를 수행할…
[CoRL 2023 oral] VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
이번 논문은 아주 재밌는 논문 입니다. LLM을 활용해 명시적인 명령어로부터 로봇 조작의 추론 및 명령어 생산하고 VLM(~OVD)을 활용해 로봇을 위한 3차원 공간에 대한 이해를 얻어…
[CVPR 2024]Open-vocabulary object 6D pose estimation
제가 이번에 리뷰할 6D Pose Estimation 논문도 보다 범용적으로 물체의 자세 정보를 추정하기 위한 연구로, 텍스트 프롬프트가 주어졌을 때 이에 대응되는 관심 객체의 자세정보를 추정하는…
안녕하세요 재윤님 답글 감사합니다. 우선 질문에 대해서 생각하신게 맞고 CNN 을 타고나온 output 들이 이미 embedding vector 의 형태이므로 feature…