[카테고리:] Conference
Conference Reivew
[CVPR2024] AffordanceLLM: Grounding Affordance from Vision Language Models
제가 이번에 리뷰할 논문도 Affordance Grounding 논문입니다. 지난번에 리뷰한 논문은 LLM이나 VLM을 활용하지는 않고, affordance 정보를 class로만 활용하였는데, 해당 논문은 VLM을 이용하여 affordance grounding의 일반화…
[NeurIPS 2023] Active Learning for Semantic Segmentation with Multi-class Label Query
안녕하세요. 허재연입니다. 오늘은 Segmentation분야의 Active Learning 논문을 가지고 았습니다. 포항공대에서 작성한 논문으로, 이번 KCCV2024 2일차에 포스터로 발표될 예정인 논문입니다. 지금까지 제가 읽은 AL분야 논문들에 모두…
[ICCV 2023] RankMixup: Ranking-Based Mixup Training for Network Calibration
안녕하세요, 허재연입니다. 얼마 후 KCCV에 참석할 예정인데, oral 및 poster 논문들을 몇개 미리 파악하고 참석하고자 합니다. 오늘 다룰 논문은 이런 취지로 미리 논문들을 살펴보다 읽어본…
[CVPR 2023]LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding
안녕하세요. 제가 이번에 리뷰할 논문은 물체와 상호작용을 위한 특정 영역을 인식하기 위한 Affordance Grounding 논문입니다. Abstract 사람은 관찰을 통해 지식을 습득하는 능력이 있어 새로운 물건을…
[ICML 2021] (CLIP) Learning Transferable Visual Models From Natural Language Supervision
Vision Language Model(VLM)의 근본인 CLIP 논문에 대해 리뷰해보겠습니다. 아이디어와 코드는 아주아주 간단한데, 현재시간 기준 19,543회의 인용률을 달성할 정도로 어마어마한 파급력을 가져온 논문이라는 것은 누구나 다…
[WACV 2024] Boosting Weakly Supervised Object Detection using Fusion and Priors from Hallucinated Depth
논문 이름이 꽤 깁니다. 금일 리뷰 하는 논문은 지난 GOOD 논문의 리뷰에 이어, Geometric Cue를 활용한 논문에 대해 읽어보고자 하였습니다. 해당 아이템을 제 논문에 적용하고…
[NerulPS 2022] Flamingo: a Visual Language Model for Few-Shot Learning
당분간 LMM 및 여러 VLM를 리뷰해보려고 하는데요, 이번에 리뷰할 논문은 구글 딥마인드에서 발표한 Visual Language Model(VLM)인 Flamingo 라는 논문입니다. 제목에서와 같이 Few-shot으로도 다양한 task를 수행할…
[CoRL 2023 oral] VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
이번 논문은 아주 재밌는 논문 입니다. LLM을 활용해 명시적인 명령어로부터 로봇 조작의 추론 및 명령어 생산하고 VLM(~OVD)을 활용해 로봇을 위한 3차원 공간에 대한 이해를 얻어…
[CVPR 2024]Open-vocabulary object 6D pose estimation
제가 이번에 리뷰할 6D Pose Estimation 논문도 보다 범용적으로 물체의 자세 정보를 추정하기 위한 연구로, 텍스트 프롬프트가 주어졌을 때 이에 대응되는 관심 객체의 자세정보를 추정하는…
[ECCV 2022] Simple Open-Vocabulary Object Detection with Vision Transformers (OWL-ViT)
안녕하세요. 저번 주에는 OWOD 태스크 중 Foundation model을 활용한 FOMO를 리뷰했었는데, 이번 주 리뷰는 FOMO의 베이스라인으로 활용됐던 OWL-ViT에 대해 리뷰를 해보려고 합니다. OWL-ViT는 Open-World Localization을…
최신 댓글