Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[ICRA 2025] RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation
구글 딥마인드에서 ICRA 2025에 게재한 방법론으로 affordance가 실제 로봇 작업에서 어떻게 활용 가능할 지 연구한 논문입니다. Abstract 해당 연구는 로봇 조작의 일반화를 위한 intermediate policy…
[CVPR2024] MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training
이번에 소개드릴 논문은 CVPR2024에 게재된 MobileCLIP이라는 논문입니다. 지난주에 리뷰한 논문도 애플에서 쓴 논문이고 지금 소개드릴 논문도 애플의 논문입니다. 애플이 2023년도에 CVPR이었나 탑티어 학회에서 FastViT라는 논문을…
[CVPR 2024 Highlight]SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection
안녕하세요 이번 논문은 제가 하고있는 창의학기제에서 풀려고하는 문제점들을 서베이하다가 네이버에서 낸 논문이 있어서 읽어본 논문입니다. ( 네이버랩스 유럽이라 한국인 이름은 안보이네요..) 그럼 리뷰 시작하겠습니다. Abstarct…
[ICCV 2025] Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval
이번에 소개할 논문은 2025 ICCV에 accept된 논문으로, text-video retrieval 분야에서 정확성과 효율성을 모두 달성한 연구입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction Text-to-Video Retrieval (T2VR)은 주어진…
[CVPR 2024] OED: Towards One-stage End-to-End Dynamic Scene Graph Generation
안녕하세요, 허재연입니다. 오늘 리뷰할 논문은 CVPR 2024에 게재된 논문으로, DETR 구조를 기반으로 Video Scene Graph Generation을 수행한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction Scene Graph Generation은…
[CoRL 2025] PicoPose : Progressive Pixel-to-Pixel Correspondence Learning for Novel Object Pose Estimation
안녕하세요, 7번째 X-review 입니다. 이번에 소개해드릴 논문은 2025년 CoRL에 발표된 PicoPose로, RGB 이미지만으로 Novel Object의 6D Pose를 높은 정확도로 추정하는 새로운 프레임워크입니다. 그럼 바로 시작하도록…
Reinforcement Study (Q-learning ~ Actor-Critic)
안녕하세요, 지난주에 X-sim이라는 연구에 대한 리뷰를 작성했는데요, 현실에서의 사람의 행동에 의한 물체의 trajectory 변화를 reward로 활용해 PPO 알고리즘으로 학습한 policy를 vision based 모델에 distill하고 더…
[NeurIPS 2021]DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification
안녕하세요. 지난주에 이어 이번에도 토큰 프루닝(token pruning) 관련 논문을 들고 왔습니다. 오늘 소개해 드릴 논문은 2021년 NeurIPS에 발표된 DynamicViT: Efficient Vision Transformers with Dynamic Token…
[ICLR 2015] Very Deep Convolutional Networks For Large-Scale Image Recognition
안녕하세요 연구실에 들어온 지 벌써 3주차인 최인하입니다. 3주라는 시간이 정말 빠르게 지나간 것 같아 놀랍기도 하고 무섭기도 하네요. 아직은 모르는 게 많아 부족하지만 주변에서 도와주시는…
[AAAI 2025] Patch-level Sounding Object Tracking for Audio-Visual Question Answering
안녕하세요 오늘의 X-Review 또한 Audio-Visual Question Answering task를 수행하는 방법론 논문을 소개해드리고자 합니다. 25년도 AAAI에 게재된 논문입니다. 그럼 바로 리뷰 시작하겠습니다. 1. Introduction 그림 1-(a)에서…
안녕하세요 우진님 후기글 잘 읽었습니다. 학회 일정이 너무 빠듯해서 막상 학회 내용에 대해서는 말해볼 기회가 좀 적었던 것 같습니다. 그러다보니…