Robotics and Computer Vision Lab

최 인하 on [ICML 2021] Learning Transferable Visual Models From Natural Language Supervision11/02/2025
안녕하세요 찬미님. 평소에 관심이 있던 논문이었는데 좋은 리뷰 감사합니다! 읽으면서 이해가 잘 안되는 부분 질문 드리겠습니다! 전문화되거나 추상적인 task에서 약한…
권 석준 on [ICRA 2025] HeLiOS: Heterogeneous LiDAR Place Recognition via Overlap-based Learning and Local Spherical Transformer10/29/2025
댓글 감사합니다. 이해하신 과정이 맞습니다. Descriptor 라는 것은 '현재 입력으로 들어간 이미지/point clouds 데이터를 대표하는 global vector' 라고 생각하시면 됩니다.…
권 석준 on [ICRA 2025] HeLiOS: Heterogeneous LiDAR Place Recognition via Overlap-based Learning and Local Spherical Transformer10/29/2025
댓글 감사합니다. A1: 네, 2D image에서 H*W 패치를 나누어 입력하는 개념과 유사합니다. 본 논문에서는 3D 공간을 다루기에 x*y*z 세 축이…
황 유진 on [ACCV2024]Vision language models are blind: Failing to translate detailed visual features into words10/27/2025
안녕하세요 질문 감사드립니다 우선 해당 결과는 학습 데이터 편향으로 보시면 좋을 것 같습니다. late fusion 구조의 한계란, VLM 모델이 질문에…
황 유진 on [ACCV2024]Vision language models are blind: Failing to translate detailed visual features into words10/27/2025
안녕하세요 질문 감사드립니다 먼저 윗 질문에 대해서는 확인하지 못한 것 같습니다. 다음 질문에 대해서도 말씀드리자면 본 논문은 기존에 지각하지 못했던…

VIRAL: Visual Representation Alignmentfor Multimodal Large Language Models

[ECCV 2020] End-to-End Object Detection with Transformers

[2025 ICLR] BRIDGING INFORMATION ASYMMETRY IN TEXT-VIDEO RETRIEVAL: A DATA CENTRIC APPROACH

Human to Robot (H2R): Workshop on Sensorizing, Modeling, and Learning from Humans

SSD: Single Shot MultiBox Detector

[ICRA 2025] RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation

[CVPR2024] MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

[CVPR 2024 Highlight]SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection

[ICCV 2025] Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval

[CVPR 2024] OED: Towards One-stage End-to-End Dynamic Scene Graph Generation

Conference Deadline

NEW POST

New Comment