[CVPR 2024] OED: Towards One-stage End-to-End Dynamic Scene Graph Generation
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 CVPR 2024에 게재된 논문으로, DETR 구조를 기반으로 Video Scene Graph Generation을 수행한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction Scene Graph Generation은…
[CoRL 2025] PicoPose : Progressive Pixel-to-Pixel Correspondence Learning for Novel Object Pose Estimation
안녕하세요, 7번째 X-review 입니다. 이번에 소개해드릴 논문은 2025년 CoRL에 발표된 PicoPose로, RGB 이미지만으로 Novel Object의 6D Pose를 높은 정확도로 추정하는 새로운 프레임워크입니다. 그럼 바로 시작하도록…
Reinforcement Study (Q-learning ~ Actor-Critic)
안녕하세요, 지난주에 X-sim이라는 연구에 대한 리뷰를 작성했는데요, 현실에서의 사람의 행동에 의한 물체의 trajectory 변화를 reward로 활용해 PPO 알고리즘으로 학습한 policy를 vision based 모델에 distill하고 더…
[NeurIPS 2021]DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification
안녕하세요. 지난주에 이어 이번에도 토큰 프루닝(token pruning) 관련 논문을 들고 왔습니다. 오늘 소개해 드릴 논문은 2021년 NeurIPS에 발표된 DynamicViT: Efficient Vision Transformers with Dynamic Token…
[ICLR 2015] Very Deep Convolutional Networks For Large-Scale Image Recognition
안녕하세요 연구실에 들어온 지 벌써 3주차인 최인하입니다. 3주라는 시간이 정말 빠르게 지나간 것 같아 놀랍기도 하고 무섭기도 하네요. 아직은 모르는 게 많아 부족하지만 주변에서 도와주시는…
[AAAI 2025] Patch-level Sounding Object Tracking for Audio-Visual Question Answering
안녕하세요 오늘의 X-Review 또한 Audio-Visual Question Answering task를 수행하는 방법론 논문을 소개해드리고자 합니다. 25년도 AAAI에 게재된 논문입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction 그림 1-(a)에서…
[CVPR 2025] SmartCLIP: Modular Vision-language Alignment with Identification Guarantees
다시 CVPR 2025 Highlight 논문들을 중심으로 다양한 연구를 리뷰해보려고 합니다. 1. Introduction 아시다시피, CLIP은 최근 멀티모달 학습에서 가장 대표적인 VLP 모델입니다. 이미지와 텍스트를 쌍으로 맞추는…
[CoRL 2025] Planning from Point Clouds over Continuous Actions for Multi-object Rearrangement
안녕하세요. CoRL 2025 Oral, Planning & Safety & Robustness 세션에서 발표될 논문이라고 하여 관심을 가지고 읽어보게 되었습니다. 해당 세션에 유독 oral paper가 적었는데요. 이 논문은…
[ACCV2024]Vision language models are blind: Failing to translate detailed visual features into words
오늘은 앞서 리뷰한 VLM is biased? 라는 질문을 다룬 논문의 이전 논문을 소개하려합니다. 본 논문은 VLM이 이미지를 보고 대답할때 실제로 보고있는것인지 확인하기 위한 벤치마크를 제시합니다….
Improving Language Understanding by Generative Pre-Training
안녕하세요 황찬미입니다.첫 x-review로 GPT1에 대한 논문을 리뷰해보고자 합니다. 9월이 된 후로 LLM관련된 내용을 공부하는 중인데 대학생활을 함께한 GPT가 몇번이고 언급되길래 이 GPT…과연 어떻게 태어나게 된…
추론 단계에서는 확률 분포 네트워크에서 생성된 확률적 임베딩(probabilistic embedding)을 사용합니다. 학습 시에는 각 모달(비디오, 텍스트)에 대해 평균 벡터와 분산을 예측하는…