Posted in X-Review

VIRAL: Visual Representation Alignmentfor Multimodal Large Language Models

이번에 소개드릴 논문은 Multimodal Large Language Model(MLLM)에 대한 분석 실험을 한 논문으로 카이스트에서 작성한 논문입니다. 아직 어디 게재된 것 같지는 않고 arxiv만 올라온 논문이긴 합니다….

Continue Reading
Posted in Paper X-Review

[ECCV 2020] End-to-End Object Detection with Transformers

안녕하세요 황찬미입니다 !두번째 x-review로 transformer를 ODtask로 사용한 DETR에 대해서 리뷰하겠습니다! 1. Intro Faster R-cnn과 같은 전통적인 OD모델은 앵커박스나 region proposal같은 엄청나게 많은 후보박스를 만들고 그…

Continue Reading
Posted in Paper X-Review

[2025 ICLR] BRIDGING INFORMATION ASYMMETRY IN TEXT-VIDEO RETRIEVAL: A DATA CENTRIC APPROACH

이번에 소개할 논문도 Text-Video Retrieval(TVR) 연구의 논문입니다. 이 논문은 기존 TVR 연구들이 텍스트와 비디오 간의 “대칭적 관계”를 가정했던 한계를 지적하며, “정보 비대칭성”이라는 근본적인 문제에 주목해서…

Continue Reading
Posted in X-Review

Human to Robot (H2R): Workshop on Sensorizing, Modeling, and Learning from Humans

안녕하세요, 이번주 X-review는 오늘 워크샵에서 들은 내용들이 자료가 따로 공유되지는 않을 뿐더러 휘발되기 전에 받아적은 내용들 토대로 정리를 하기 위해 워크샵을 총정리하는 글을 적어보려고 합니다….

Continue Reading
Posted in X-Review

SSD: Single Shot MultiBox Detector

안녕하세요. 두번째 X-review 작성자 최인하입니다. 이번에 읽은 논문은 SSD: Single Shot MultiBox Detector입니다. 논문을 읽으면서 object detection 분야에 관하여 몰랐던 개념들을 하나씩 찾아갈 수 있었던…

Continue Reading
Posted in Conference X-Review

[ICRA 2025] RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation

구글 딥마인드에서 ICRA 2025에 게재한 방법론으로 affordance가 실제 로봇 작업에서 어떻게 활용 가능할 지 연구한 논문입니다. Abstract 해당 연구는 로봇 조작의 일반화를 위한 intermediate policy…

Continue Reading
Posted in Conference X-Review

[CVPR2024] MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

이번에 소개드릴 논문은 CVPR2024에 게재된 MobileCLIP이라는 논문입니다. 지난주에 리뷰한 논문도 애플에서 쓴 논문이고 지금 소개드릴 논문도 애플의 논문입니다. 애플이 2023년도에 CVPR이었나 탑티어 학회에서 FastViT라는 논문을…

Continue Reading
Posted in Paper X-Review

[CVPR 2024 Highlight]SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection

안녕하세요 이번 논문은 제가 하고있는 창의학기제에서 풀려고하는 문제점들을 서베이하다가 네이버에서 낸 논문이 있어서 읽어본 논문입니다. ( 네이버랩스 유럽이라 한국인 이름은 안보이네요..) 그럼 리뷰 시작하겠습니다. Abstarct…

Continue Reading
Posted in Paper X-Review

[ICCV 2025] Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval

이번에 소개할 논문은 2025 ICCV에 accept된 논문으로, text-video retrieval 분야에서 정확성과 효율성을 모두 달성한 연구입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction Text-to-Video Retrieval (T2VR)은 주어진…

Continue Reading
Posted in Conference Paper X-Review

[CVPR 2024] OED: Towards One-stage End-to-End Dynamic Scene Graph Generation

안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 CVPR 2024에 게재된 논문으로, DETR 구조를 기반으로 Video Scene Graph Generation을 수행한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction Scene Graph Generation은…

Continue Reading