Posted in Paper X-Review

[CVPR 2022] Bridging Video-text Retrieval with Multiple Choice Questions

안녕하세요, 오늘의 X-Review는 Video-Text 간 상호작용을 극대화하는 사전학습 방식에 관련된 22년도 CVPR 논문 <Bridging Video-text Retrieval with Multiple Choice Questions>입니다. 효율성과 정확도 모두 가져가고자하는 사전학습…

Continue Reading
Posted in X-Review

[CVPR 2024]Amodal Ground Truth and Completion in the Wild

안녕하세요, 3번 째 X-Review 입니다. 이번주도 Amodal Completion에 대한 논문을 읽어봤습니다. 이 논문의 저자들은 3D 데이터를 활용하여 가려진 물체의 Amodal Masks를 자동 생성하는 Pipeline을 제안하고…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] Point-SAM: Promptable 3D Segmentation Model for Point Clouds

안녕하세요, 마흔 일곱번째 x-review 입니다. 이번 논문은 arXiv에 올라온 논문이긴 하나, 3D FM을 구성하기 위한 연구를 수행했다고 하여 읽고 리뷰를 작성해 보았습니다. 그럼 바로 리뷰…

Continue Reading
Posted in Paper X-Review

[ICLR 2021] Free lunch for few-shot learning: Distribution calibration

안녕하세요. 본 논문은 few-shot learning에 관한 논문입니다. 제목에서 알 수 있듯이 데이터 수집 비용 없이 기존의 정보를 활용해 추가 데이터를 생성하여 few-shot learning의 성능을 높인…

Continue Reading
Posted in X-Review

[ECCCV2024] Uncertainty-Aware Sign Language Vido Retrieval with Probability Distribution Modeling

안녕하세요 박성준 연구원입니다. 제가 오늘 리뷰할 논문은 조금은 생소할 수 있는 task인 Sign Language(수화) Video Retrieval를 다룬 논문입니다. Introduction Sign Language Video Retrieval은 두가지의 목표를…

Continue Reading
Posted in Paper X-Review

[CVPR 2024] VicTR: Video-conditioned Text Representation for Activity Recognition

안녕하세요, 이번 주 X-Review에서는 24년도 CVPR에 게재된 논문 <VicTR: Video-conditioned Text Representation for Activity Recognition>을 소개해드리겠습니다. 잘 편집되어있는, 즉 하나의 비디오에서는 하나의 action만 등장하는 trimmed…

Continue Reading
Posted in Paper X-Review

[EMNLP 2023] ROME: Evaluating Pre-trained Vision-Language Models on Reasoning beyond Visual Common Sense

안녕하세요 이번에 소개할 논문은 사전 학습된 비전-언어 모델(VLMs)이 단순한 시각적 상식을 넘어선 복잡한 추론 능력을 평가하기 위해 새로운 데이터셋인 ROME과 평가 프레임워크를 제안한 논문입니다. 연구의…

Continue Reading
Posted in X-Review

[CVPR 2024]Amodal Completion via Progressive Mixed Context Diffusion

안녕하세요 두 번째 x-review입니다. 저번주에 이어서 Amodal Completion 주제를 읽고있는데, 이번 논문의 저자 역시 Diffusion을 이용해 문제를 해결하려고 했습니다. Diffusion을 채택한 이유 또한 인간이 가려진…

Continue Reading
Posted in X-Review

[ECCV2024]R2-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding

안녕하세요. 박성준 연구원입니다. 오늘 제가 리뷰할 논문은 ECCV2024에 게재된 R2-Tuning 입니다. Introduction 먼저 R2-Tuning은 Video Temporal Grounding(VTG) task를 다룬 논문입니다. VTG란, untrimmed(정제되지 않은) video 내에서…

Continue Reading
Posted in X-Review

[CVPR 2024] MART: Masked Affective RepresenTation Learning via Masked Temporal Distribution Distillation

pdf code 안녕하세요. 이번에도 video task에서의 감정 관련 task를 들고 왔습니다. 최근에 연구주제에 대해서 고민이 깊어지면서 다양한 분야의 논문을 읽고 싶어 새롭게 시도하여 읽게 되었습니다….

Continue Reading