[arXiv2025]Video Summarization with Large Language Models
대형 언어 모델(LLMs)을 비디오 요약에 활용하는 기본적인 접근법이 어떻게 될까요?저는 위 질문에 대해 답을 찾기 위해 해당 논문을 읽게 되었습니다. 직관적인 제목처럼 제가 보았던 논문중에서…
[ICLR 2024] Online Continual Learning For Interactive Instruction Following Agents
안녕하세요. 이번 논문은 Online Continual Learning, 즉 Incremental Learning 과 관련된 논문입니다. 특히 embodied agent 혹은 로봇 에이전트를 그 대상으로 두고, 앞으로 이 agent가 세상을…
[ICRL 2025] Weakly-Supervised Affordance Grounding Guided by Part-Level Semantic Priors
Abstract 저자들은 Human Object Interation 이미지(=exocentric 이미지)와 물체 중심의 이미지(=egocentric 이미지)를 weakly supervised 방식으로 학습하는 affordance grounding 연구를 제안합니다. 기존 연구는 affordance 카테고리에 대한 activation…
[NeurIPS 2023] Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models
안녕하세요, 허재연입니다. 지난번에 이어서 OV-SGG 분야 논문을 가져왔습니다. SGG의 경우 일반적으로 <subject-predicate-object> triplet을 모두 잘 예측하고자 하는 흐름에 있는데(이를 Visual Relation Detection이라고도 합니다), 본 논문은…
[ACM 2022] Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition
안녕하세요 류지연입니다. TESTR과 DPText-DETR에 이어서 텍스트 인식 task에 집중하며 논문을 읽고 교육받고 있습니다. 당분간은 이 주제의 논문들을 읽고 리뷰를 작성할 듯 싶습니다. 이번에는 Text Recognition만을…
[CVPR 2025] MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval
새로운 Video Retrieval 데이터셋과 관련된 논문이 있어 리뷰해보겠습니다. Conference: CVPR 2025 Authors: Reno Kriz, Kate Sanders, David Etter, Kenton Murray, Cameron Carpenter, Kelly Van Ochten, Hannah…
[CoRL 2024] Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction
안녕하세요, 지난주에는 scene을 3D로 복원한 뒤 이를 기반으로 효율적인 학습을 수행하는 논문을 리뷰했는데요, 이번에는 그보다 한 단계 더 나아가 시간 축을 포함한 4D 정보를 복원하여…
[CVPR 2025] Completion as Enhancement: A Degradation-Aware Selective Image Guided Network for Depth Completion
안녕하세요, 66번째 x-review 입니다. 이번 논문은 CVPR 2025년도에 게재된 depth completion을 depth enhancement 관점에서 해결한 논문 입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1. Introduction depth…
[ECCV 2022] DualPrompt: Complementary Prompting for Rehearsal-free Continual Learning
안녕하세요, 예순 한번째 X-Review입니다. 이번 논문은 2022년도 ECCV에 올라온 DualPrompt: Complementary Prompting for Rehearsal-free Continual Learning논문으로 prompt learning을 continual learning에 적용한 논문입니다. 바로 시작하도록 하겠습니다….
[AAAI2024]V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning
앞서서 사용자 질의 반영 비디오 요약과 일반 비디오 요약을 통합한 프레임워크를 소개드렸는데요, 오늘 소개드릴 논문은 더 광범위한 비디오 요약 테스크를 한번에 수행하는 방법을 소개합니다. 비디오…
안녕하세요, 리뷰 읽어주셔서 감사합니다.. 논문에서 text로 얻는 평균과 분산은 텍스트에 적합한 다양한 장면들의 분포를 나타내는 prior 역할을 하게 됩니다. 그런데…