[카테고리:] X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[CVPR 2019] Relational Knowledge Distillation
논문 : 링크 / Github : 링크 / 참고 : 링크 안녕하세요, 허재연입니다. 오늘 다룰 논문은 2019년 POSTECH CVlab에서 CVPR에 게재한 Relational Knowledge Distillation 입니다….
[CVPR 2022] Bridging Video-text Retrieval with Multiple Choice Questions
안녕하세요, 오늘의 X-Review는 Video-Text 간 상호작용을 극대화하는 사전학습 방식에 관련된 22년도 CVPR 논문 <Bridging Video-text Retrieval with Multiple Choice Questions>입니다. 효율성과 정확도 모두 가져가고자하는 사전학습…
[CVPR 2024]Amodal Ground Truth and Completion in the Wild
안녕하세요, 3번 째 X-Review 입니다. 이번주도 Amodal Completion에 대한 논문을 읽어봤습니다. 이 논문의 저자들은 3D 데이터를 활용하여 가려진 물체의 Amodal Masks를 자동 생성하는 Pipeline을 제안하고…
[arXiv 2024] Point-SAM: Promptable 3D Segmentation Model for Point Clouds
안녕하세요, 마흔 일곱번째 x-review 입니다. 이번 논문은 arXiv에 올라온 논문이긴 하나, 3D FM을 구성하기 위한 연구를 수행했다고 하여 읽고 리뷰를 작성해 보았습니다. 그럼 바로 리뷰…
[ICLR 2021] Free lunch for few-shot learning: Distribution calibration
안녕하세요. 본 논문은 few-shot learning에 관한 논문입니다. 제목에서 알 수 있듯이 데이터 수집 비용 없이 기존의 정보를 활용해 추가 데이터를 생성하여 few-shot learning의 성능을 높인…
[ECCCV2024] Uncertainty-Aware Sign Language Vido Retrieval with Probability Distribution Modeling
안녕하세요 박성준 연구원입니다. 제가 오늘 리뷰할 논문은 조금은 생소할 수 있는 task인 Sign Language(수화) Video Retrieval를 다룬 논문입니다. Introduction Sign Language Video Retrieval은 두가지의 목표를…
[CVPR 2024] VicTR: Video-conditioned Text Representation for Activity Recognition
안녕하세요, 이번 주 X-Review에서는 24년도 CVPR에 게재된 논문 <VicTR: Video-conditioned Text Representation for Activity Recognition>을 소개해드리겠습니다. 잘 편집되어있는, 즉 하나의 비디오에서는 하나의 action만 등장하는 trimmed…
[EMNLP 2023] ROME: Evaluating Pre-trained Vision-Language Models on Reasoning beyond Visual Common Sense
안녕하세요 이번에 소개할 논문은 사전 학습된 비전-언어 모델(VLMs)이 단순한 시각적 상식을 넘어선 복잡한 추론 능력을 평가하기 위해 새로운 데이터셋인 ROME과 평가 프레임워크를 제안한 논문입니다. 연구의…
[CVPR 2024]Amodal Completion via Progressive Mixed Context Diffusion
안녕하세요 두 번째 x-review입니다. 저번주에 이어서 Amodal Completion 주제를 읽고있는데, 이번 논문의 저자 역시 Diffusion을 이용해 문제를 해결하려고 했습니다. Diffusion을 채택한 이유 또한 인간이 가려진…
[ECCV2024]R2-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding
안녕하세요. 박성준 연구원입니다. 오늘 제가 리뷰할 논문은 ECCV2024에 게재된 R2-Tuning 입니다. Introduction 먼저 R2-Tuning은 Video Temporal Grounding(VTG) task를 다룬 논문입니다. VTG란, untrimmed(정제되지 않은) video 내에서…
최신 댓글