Paper – Page 7 – Robotics and Computer Vision Lab

Paper X-Review

DINOv3

이번에 소개드릴 논문은 최근에 공개된 DINOv3 입니다. DINOv2가 CV에서 엄청난 파급력이 있음은 잘 알려져있지만 그렇다고 이번에 새로 나온 DINOv3 논문 제목이 추가적인 부연 설명이나 내용…

Paper X-Review

[CVPRW2024]ViTA: An Efficient Video-to-Text Algorithm using VLM for RAG-based VideoAnalysis System

안녕하세요, 오늘 소개드릴 논문은 비디오 modality를 위한 RAG 프레임워크를 제안한 논문입니다. RAG의 기본적인 동작 도메인인 텍스트 도메인보다 데이터 용량이 큰 비디오 도메인을 다루는 만큼, 효율성을…

Paper X-Review

[IEEE 2024 IJCNN]Image Caption Method from Coarse to Fine Based On Dual Encoder-Decoder Framework

안녕하세요 이번 리뷰는 fine grained 레벨의 이미지 캡션 생성 논문입니다. 최근 GPT 계열의 foundation 모델을 통해 fine grained 캡션 생성도 가능해졌지만, 이 논문은 별도의 foundation…

Paper X-Review

[TMM 2025] Spatial-Temporal Saliency Guided Unbiased Contrastive Learning for Video Scene Graph Generation

안녕하세요, 허재연입니다. 이번에도 video 기반의 Scene Graph Generation(SGG) 논문을 들고 왔습니다. 오늘 다룰 논문은 IEEE TRANSACTIONS ON MULTIMEDIA(TMM)에 게재된 논문으로, object의 식별에 집중한 논문입니다. 리뷰…

Paper X-Review

[CVPR 2025] UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection

안녕하세요, 71번째 X-Review입니다. 이번 논문은 2025년도 CVPR에 올라온 UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection 입니다. 바로 시작하도록 하겠습니다. 1. Introduction 기존…

Paper X-Review

[ACM MM 2024] Boosting Audio Visual Question Answering via Key Semantic-Aware Cues

안녕하세요. 오늘의 X-Review는 24년도 ACM MM 학회에 게재된 AVQA(Audio-Visual Question Answering) task 방법론 논문입니다. AVQA task와 관련된 내용은 논문과 함께 설명드리겠습니다. 1. Introduction 저는 최근까지…

Paper X-Review

[IEEE CBMI 2024]Is CLIP the main roadblock for fine-grained open-world perception?

안녕하세요 오늘 논문은 CLIP을 사용하면서 fine-grained 레벨의 객체를 찾는 논문을 찾다가 제목을 보고 읽게 되었습니다. 제목을 해석해보자면 CLIP이 세밀한 레벨에서의 open-world perception에 있어서 주된 병목,…

Paper X-Review

[Arxiv 2022]BinsFormer:Revisiting Adaptive Bins forMonocular Depth Estimation

안녕하세요 이번에 들고온 논문은 2022년에 arxiv에 올라온 BinsFormer:Revisiting Adaptive Bins forMonocular Depth Estimation라는 논문입니다.이번에는 이전에 리뷰했던 Scale Depth의 근간이 되는 BinsFormer를 직접 읽어보면서, 무엇이 핵심…

Paper X-Review

[ICCV 2025] MultiADS: Defect-aware Supervision for Multi-type Anomaly Detection and Segmentation in Zero-Shot Learning

안녕하세요, 70번째 X-Review입니다. 이번 논문은 2025년도 ICCV에 올라온 MultiADS: Defect-aware Supervision for Multi-type Anomaly Detection and Segmentation in Zero-Shot Learning 입니다. 바로 시작하도록 하겠습니다. 1….

Paper X-Review

[ECCV 2024] Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions

안녕하세요, 75번째 x-review 입니다. 이번 논문은 2024 ECCV에 게재된 Diffusion Models for Monocular Depth Estimation이라는 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 1. Introduction MDE는 한…

Category: Paper

DINOv3

[CVPRW2024]ViTA: An Efficient Video-to-Text Algorithm using VLM for RAG-based VideoAnalysis System

[IEEE 2024 IJCNN]Image Caption Method from Coarse to Fine Based On Dual Encoder-Decoder Framework

[TMM 2025] Spatial-Temporal Saliency Guided Unbiased Contrastive Learning for Video Scene Graph Generation

[CVPR 2025] UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection

[ACM MM 2024] Boosting Audio Visual Question Answering via Key Semantic-Aware Cues

[IEEE CBMI 2024]Is CLIP the main roadblock for fine-grained open-world perception?

[Arxiv 2022]BinsFormer:Revisiting Adaptive Bins forMonocular Depth Estimation

[ICCV 2025] MultiADS: Defect-aware Supervision for Multi-type Anomaly Detection and Segmentation in Zero-Shot Learning

[ECCV 2024] Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions

Conference Deadline

NEW POST

New Comment