[카테고리:] Conference
Conference Reivew
[CoRL 2023 Oral] Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners
이번 리뷰 논문은 Robot의 행동 전략을 LLM으로 사용 했을 때, 발생 가능한 불확실성을 측정하기 위한 논문 입니다. 논문이 어려워 처음에는 oral로 인정 받은 이유를 파악하기…
[arXiv 2024] Occam’s LGS: A Simple Approach for Language Gaussian Splatting
이번 리뷰 논문은 3D Language Feature Splatting 기법에 대해서 다루고자 합니다. 제목 중 Occam이라는 용어가 보일 겁니다. 저 용어는 Occam’s Razor (오컴의 면도날)라는 단순의 미학을…
[ICRA 2024]Language-Conditioned Affordance-Pose Detection in 3D Point Clouds
Abstraction Affordance를 인식하고 pose를 추정하는 것은 로봇의 조작에 중요하며, 이 둘을 융합하므로써 작업과 연관된 affordance를 잡기 위한 pose를 생성해내므로써 로봇의 조작 능력이 개선될 수 있습니다….
[CVPR Workshop 2024]What does CLIP know about peeling a banana?
제가 이번에 리뷰할 논문도 Affordance 관련 논문입니다. 자신들의 방법론을 AffordanceCLIP이라 하여 관심이 생겨 읽게 되었습니다. 코드는 따로 공개되어있지 않습니다. Abstract 사람은 도구를 어떻게 사용할지에 대해…
[ICLR 2025] Real2Code: Reconstruct Articulated Objects via Code Generation
이번 리뷰 논문은 관절형(articulated) 객체를 이해하고 3차원 재구성을 코드 레벨로 구축이 가능한 기법을 제안한 논문입니다. open review인 ICLR에서 accept을 받은 것으로 확인됩니다. 최근 실제 세계의…
[IROS 2024 Oral]ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models
제가 이번에 리뷰할 논문은 Affordance 인식을 위해 MLLM을 적용한 방법론으로, 제가 최근 리뷰한 UniAff에서 기존 방법론과의 비교에 활용된 방법론 입니다.(자세한 내용은 이전 리뷰 참고해주세요!) Abstract…
[EMNLP 2024] Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
오늘 리뷰할 논문은 Vision-Language Models(VLM)의 Compositional Reasoning 능력을 향상시키면서 멀티모달 성능을 유지하는 방법에 대한 것입니다. Compositional Reasoning이란 개별 요소(예: 단어, 이미지 특징 등)를 조합해 새로운…
[CVPR 2024] MAFA: Managing False Negatives for Vision-Language Pre-training
오늘 리뷰할 논문은 Vision-Language Pre-training(VLP) 과정에서 발생하는 “false negatives” 문제를 다룹니다. Vision Language Model (VLM)은 웹에서 수집한 이미지-텍스트 페어를 활용해 학습합니다. 학습 시, 하나의 이미지에…
[AAAI 2025] FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping
이번 리뷰 논문은 3D Language Field 중 출판된 가장 최신 기법으로 실시간성과 성능 모두 SOTA를 달성한 기법에 해당합니다. 기존 기법들은 첫 시도들을 제안한 기법이라면 해다…
[EMNLP 2024] Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models
오늘 리뷰할 논문은 Vision-Language Models(VLM)에서 발생하는 object hallucination 문제를 찾고, 이를 완화하는 방법에 대해 다룹니다. VLM은 이미지 캡셔닝, 시각적 질문 응답 등 다양한 작업에서 뛰어난…
최신 댓글