[카테고리:] Conference

Conference Reivew

Posted in Conference X-Review

[CVPR 2024] MAFA: Managing False Negatives for Vision-Language Pre-training

오늘 리뷰할 논문은 Vision-Language Pre-training(VLP) 과정에서 발생하는 “false negatives” 문제를 다룹니다. Vision Language Model (VLM)은 웹에서 수집한 이미지-텍스트 페어를 활용해 학습합니다. 학습 시, 하나의 이미지에…

Continue Reading
Posted in Conference Paper X-Review

[AAAI 2025] FastLGS: Speeding up Language Embedded Gaussians with Feature Grid Mapping

이번 리뷰 논문은 3D Language Field 중 출판된 가장 최신 기법으로 실시간성과 성능 모두 SOTA를 달성한 기법에 해당합니다. 기존 기법들은 첫 시도들을 제안한 기법이라면 해다…

Continue Reading
Posted in Conference X-Review

[EMNLP 2024] Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models

오늘 리뷰할 논문은 Vision-Language Models(VLM)에서 발생하는 object hallucination 문제를 찾고, 이를 완화하는 방법에 대해 다룹니다. VLM은 이미지 캡셔닝, 시각적 질문 응답 등 다양한 작업에서 뛰어난…

Continue Reading
Posted in Conference Paper X-Review

[CVPR 2024] GARField: Group Anything with Radiance Fields

이번 리뷰 논문은 LERF 저자들의 후속 논문들로 특징으로만 구분하는 경우, 모호한 영역 구분으로 인해 쿼리에 해당하는 영역과 명확한 구분이 어렵다는 문제점이 있습니다. 저자는 이를 해결하기…

Continue Reading
Posted in Conference X-Review

[NeurIPS 2024] Large Spatial Model: End-to-end Unposed Images to Semantic 3D

이번 리뷰 논문은 전에 소개해드린 3DLF의 느릴 수 밖에 없는 파이프라인과 추론 속도를 보강하기 위한 기법입니다. 해당 기법은 입력 영상으로부터 0.1 second 정도의 온보딩 과정만…

Continue Reading
Posted in Conference X-Review

[CVPR 2024]GLID: Pre-training a Generalist Encoder-Decoder Vision Model

제가 이번에 리뷰할 논문은 CVPR2024 논문으로, 다양한 task로의 task-agnostic한 사전학습된 encoder-decoder를 만드는 논문입니다. 미학습물체파지 과제에서 기하정보를 기반으로 미학습 물체 후보 선정 및 의사(pseudo) 라벨 생성…

Continue Reading
Posted in Conference X-Review

[CVPR 2022][Oral] Rethinking Semantic Segmentation: A Prototype View

안녕하세요. 이번 리뷰의 태그는 “semantic segmentation”, “prototype”입니다. 명료한 제목처럼 본 논문에선 이전 semantic segmentation 태스크의 prototype이 활용되어온 방향과, 그들의 단점으로 부터 새로운 prototype 학습 방식을…

Continue Reading
Posted in Conference X-Review

[ECCV 2024] HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts

이번에는 하이퍼볼릭 임베딩을 활용한 이미지-텍스트 데이터 필터링에 대한 논문을 리뷰해보겠습니다. 보다 구체적으로 말하자면, 단순히 이미지-텍스트 사이의 정렬만 집중하는 것이 아닌 CLIP에 Hyperbolic Embedding을 추가하여 데이터의…

Continue Reading
Posted in Conference X-Review

[CVPR 2024] Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields

이번 논문은 3D scene representations에 foundation model의 특징 정보를 학습시킴으로써, 장면에 대한 의미론적 이해가 가능하도록 하는 것을 목표로 합니다. 더 나아가, 언어, point, bbox 등…

Continue Reading
Posted in Conference Paper X-Review

[ECCV 2024 Oral] CAT-SAM: Conditional Tuning for Few-Shot Adaptation of Segment Anything Model

이번 리뷰 논문은 CAT-SAM이라는 SAM의 지식을 유지하면서 특정 도메인에 효율적으로 적응시키는 기법을 소개한 논문입니다. RGB 특화된 태스크 외에도 비 RGB에서도 적응적인 결과를 보여주고 있습니다. 추가로…

Continue Reading