Category: Conference
Conference Reivew
[EMNLP 2024] Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models
오늘 리뷰할 논문은 Vision-Language Models(VLM)에서 발생하는 object hallucination 문제를 찾고, 이를 완화하는 방법에 대해 다룹니다. VLM은 이미지 캡셔닝, 시각적 질문 응답 등 다양한 작업에서 뛰어난…
[CVPR 2024] GARField: Group Anything with Radiance Fields
이번 리뷰 논문은 LERF 저자들의 후속 논문들로 특징으로만 구분하는 경우, 모호한 영역 구분으로 인해 쿼리에 해당하는 영역과 명확한 구분이 어렵다는 문제점이 있습니다. 저자는 이를 해결하기…
[NeurIPS 2024] Large Spatial Model: End-to-end Unposed Images to Semantic 3D
이번 리뷰 논문은 전에 소개해드린 3DLF의 느릴 수 밖에 없는 파이프라인과 추론 속도를 보강하기 위한 기법입니다. 해당 기법은 입력 영상으로부터 0.1 second 정도의 온보딩 과정만…
[CVPR 2024]GLID: Pre-training a Generalist Encoder-Decoder Vision Model
제가 이번에 리뷰할 논문은 CVPR2024 논문으로, 다양한 task로의 task-agnostic한 사전학습된 encoder-decoder를 만드는 논문입니다. 미학습물체파지 과제에서 기하정보를 기반으로 미학습 물체 후보 선정 및 의사(pseudo) 라벨 생성…
[CVPR 2022][Oral] Rethinking Semantic Segmentation: A Prototype View
안녕하세요. 이번 리뷰의 태그는 “semantic segmentation”, “prototype”입니다. 명료한 제목처럼 본 논문에선 이전 semantic segmentation 태스크의 prototype이 활용되어온 방향과, 그들의 단점으로 부터 새로운 prototype 학습 방식을…
[ECCV 2024] HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts
이번에는 하이퍼볼릭 임베딩을 활용한 이미지-텍스트 데이터 필터링에 대한 논문을 리뷰해보겠습니다. 보다 구체적으로 말하자면, 단순히 이미지-텍스트 사이의 정렬만 집중하는 것이 아닌 CLIP에 Hyperbolic Embedding을 추가하여 데이터의…
[CVPR 2024] Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields
이번 논문은 3D scene representations에 foundation model의 특징 정보를 학습시킴으로써, 장면에 대한 의미론적 이해가 가능하도록 하는 것을 목표로 합니다. 더 나아가, 언어, point, bbox 등…
[ECCV 2024 Oral] CAT-SAM: Conditional Tuning for Few-Shot Adaptation of Segment Anything Model
이번 리뷰 논문은 CAT-SAM이라는 SAM의 지식을 유지하면서 특정 도메인에 효율적으로 적응시키는 기법을 소개한 논문입니다. RGB 특화된 태스크 외에도 비 RGB에서도 적응적인 결과를 보여주고 있습니다. 추가로…
[CVPR 2023] Detecting Everything in the Open World: Towards Universal Object Detection
안녕하세요. 지난 리뷰에서는 Universal Segmentation, Segmentation의 모든 Task 에 대한 연구를 소개 드렸다면, 이번 논문에서는 Detection 분야에서 “모든 환경에서, 모든 객체를 탐지하고자 하는” 연구를 소개…
[CoRL 2023 Oral] Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping
이번 논문은 LEFT-TOGO라는 논문으로 저희가 진행하고 있는 LLM 로봇 과제에서 지향하는 목표 중 하나를 구현한 논문에 해당합니다. 해당 논문은 VLM의 특징 정보를 가진 NeRF인 LERF를…
안녕하세요 현우님! 좋은 리뷰 감사합니다. 질문 하나 드리고자 합니다. Local branch는 질문에 따라 필요한 정보를 동적으로 추출해야 하는 곳인데, 여기서…