Recent Posts
[ACL Findings 2025] Detecting and Mitigating Challenges in Zero-Shot Video Summarization with Video LLMs
Video LLMs을 통한 비디오 요약이 가능할까요? 해당 질문에 대한 답을 위해 분석을 진행한 논문이 여기 있습니다. 리뷰를 시작하겠습니다. 본 논문은 Zero-shot으로 비디오 요약을 수행하려할때 확인하게…
[Arxiv 2023]ONE-PEACE: EXPLORING ONE GENERAL REPRESENTATION MODEL TOWARD UNLIMITED MODALITIES
안녕하세요 오늘은 여러 모달리티를 잘 엮어서 하나의 범용 표현 모델을 만든 논문을 들고왔습니다. 사실 최초 읽은 이유는 audio 모달리티에 대한 얻을 수 있는 인사이트가 없나…
SIM-COT: Supervised Implicit Chain-of-Thought
안녕하세요. 오늘 리뷰할 논문은 SIM-COT: Supervised Implicit Chain-of-Thought입니다. 아직 학회에 게재된 논문은 아니지만 InternVL으로 유명(?)한 InternLM의 논문으로 LLM의 CoT에 관한 연구입니다. Introduction “측정할 수 있는…
[CVPR 2025]Token Cropr Faster ViTs for Quite a Few Taskscopr
안녕하세요 이번주도 저번 주에 이어서 토큰 프루닝 관련 논문을 들고 왔습니다. 아마 이번주를 마지막으로 다음 주 부터는 토큰 프루닝 관련 논문보다는 다른 분야의 논문을 찾아서…
VIRAL: Visual Representation Alignmentfor Multimodal Large Language Models
이번에 소개드릴 논문은 Multimodal Large Language Model(MLLM)에 대한 분석 실험을 한 논문으로 카이스트에서 작성한 논문입니다. 아직 어디 게재된 것 같지는 않고 arxiv만 올라온 논문이긴 합니다….
[ECCV 2020] End-to-End Object Detection with Transformers
안녕하세요 황찬미입니다 !두번째 x-review로 transformer를 ODtask로 사용한 DETR에 대해서 리뷰하겠습니다! 1. Intro Faster R-cnn과 같은 전통적인 OD모델은 앵커박스나 region proposal같은 엄청나게 많은 후보박스를 만들고 그…
[2025 ICLR] BRIDGING INFORMATION ASYMMETRY IN TEXT-VIDEO RETRIEVAL: A DATA CENTRIC APPROACH
이번에 소개할 논문도 Text-Video Retrieval(TVR) 연구의 논문입니다. 이 논문은 기존 TVR 연구들이 텍스트와 비디오 간의 “대칭적 관계”를 가정했던 한계를 지적하며, “정보 비대칭성”이라는 근본적인 문제에 주목해서…
Human to Robot (H2R): Workshop on Sensorizing, Modeling, and Learning from Humans
안녕하세요, 이번주 X-review는 오늘 워크샵에서 들은 내용들이 자료가 따로 공유되지는 않을 뿐더러 휘발되기 전에 받아적은 내용들 토대로 정리를 하기 위해 워크샵을 총정리하는 글을 적어보려고 합니다….
SSD: Single Shot MultiBox Detector
안녕하세요. 두번째 X-review 작성자 최인하입니다. 이번에 읽은 논문은 SSD: Single Shot MultiBox Detector입니다. 논문을 읽으면서 object detection 분야에 관하여 몰랐던 개념들을 하나씩 찾아갈 수 있었던…
[ICRA 2025] RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation
구글 딥마인드에서 ICRA 2025에 게재한 방법론으로 affordance가 실제 로봇 작업에서 어떻게 활용 가능할 지 연구한 논문입니다. Abstract 해당 연구는 로봇 조작의 일반화를 위한 intermediate policy…
안녕하세요 우현님 글 읽어주셔서 감사합니다. 우선 human video는 여러 형태로 존재할 수 있지만 제가 학회에 참석하면서 본 거의 대부분의 human…