VIRAL: Visual Representation Alignmentfor Multimodal Large Language Models
이번에 소개드릴 논문은 Multimodal Large Language Model(MLLM)에 대한 분석 실험을 한 논문으로 카이스트에서 작성한 논문입니다. 아직 어디 게재된 것 같지는 않고 arxiv만 올라온 논문이긴 합니다….
[ECCV 2020] End-to-End Object Detection with Transformers
안녕하세요 황찬미입니다 !두번째 x-review로 transformer를 ODtask로 사용한 DETR에 대해서 리뷰하겠습니다! 1. Intro Faster R-cnn과 같은 전통적인 OD모델은 앵커박스나 region proposal같은 엄청나게 많은 후보박스를 만들고 그…
[2025 ICLR] BRIDGING INFORMATION ASYMMETRY IN TEXT-VIDEO RETRIEVAL: A DATA CENTRIC APPROACH
이번에 소개할 논문도 Text-Video Retrieval(TVR) 연구의 논문입니다. 이 논문은 기존 TVR 연구들이 텍스트와 비디오 간의 “대칭적 관계”를 가정했던 한계를 지적하며, “정보 비대칭성”이라는 근본적인 문제에 주목해서…
Human to Robot (H2R): Workshop on Sensorizing, Modeling, and Learning from Humans
안녕하세요, 이번주 X-review는 오늘 워크샵에서 들은 내용들이 자료가 따로 공유되지는 않을 뿐더러 휘발되기 전에 받아적은 내용들 토대로 정리를 하기 위해 워크샵을 총정리하는 글을 적어보려고 합니다….
SSD: Single Shot MultiBox Detector
안녕하세요. 두번째 X-review 작성자 최인하입니다. 이번에 읽은 논문은 SSD: Single Shot MultiBox Detector입니다. 논문을 읽으면서 object detection 분야에 관하여 몰랐던 개념들을 하나씩 찾아갈 수 있었던…
[ICRA 2025] RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation
구글 딥마인드에서 ICRA 2025에 게재한 방법론으로 affordance가 실제 로봇 작업에서 어떻게 활용 가능할 지 연구한 논문입니다. Abstract 해당 연구는 로봇 조작의 일반화를 위한 intermediate policy…
[CVPR2024] MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training
이번에 소개드릴 논문은 CVPR2024에 게재된 MobileCLIP이라는 논문입니다. 지난주에 리뷰한 논문도 애플에서 쓴 논문이고 지금 소개드릴 논문도 애플의 논문입니다. 애플이 2023년도에 CVPR이었나 탑티어 학회에서 FastViT라는 논문을…
[CVPR 2024 Highlight]SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection
안녕하세요 이번 논문은 제가 하고있는 창의학기제에서 풀려고하는 문제점들을 서베이하다가 네이버에서 낸 논문이 있어서 읽어본 논문입니다. ( 네이버랩스 유럽이라 한국인 이름은 안보이네요..) 그럼 리뷰 시작하겠습니다. Abstarct…
[ICCV 2025] Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval
이번에 소개할 논문은 2025 ICCV에 accept된 논문으로, text-video retrieval 분야에서 정확성과 효율성을 모두 달성한 연구입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction Text-to-Video Retrieval (T2VR)은 주어진…
[CVPR 2024] OED: Towards One-stage End-to-End Dynamic Scene Graph Generation
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 CVPR 2024에 게재된 논문으로, DETR 구조를 기반으로 Video Scene Graph Generation을 수행한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction Scene Graph Generation은…
안녕하세요 찬미님. 평소에 관심이 있던 논문이었는데 좋은 리뷰 감사합니다! 읽으면서 이해가 잘 안되는 부분 질문 드리겠습니다! 전문화되거나 추상적인 task에서 약한…