[카테고리:] Paper
Paper Review
[Neurips 2020] What Makes for Good Views for Contrastive Learning
1. Introduction 대조 학습(contrastive multiview learning)은 동일한 장면의 두 view을 representation space에서 가깝게 하고, 다른 장면의 두 view을 멀어지게 합니다. 이는 자연스럽고 강력한 아이디어이지만 중요한…
[ECCV2022]Detecting Twenty-thousand Classes using Image-level Supervision
#676478 이번에 리뷰드릴 논문은 Object Detection 데이터셋의 다양성 한계를 극복하는 방법론을 다루는 논문입니다. Meta AI(이하, 메타)와 텍사스 대학에서 발표된 연구이며 ECCV 2022에 등재되었습니다. 그럼 리뷰를…
[CoRL 2023 oral] VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
이번 논문은 아주 재밌는 논문 입니다. LLM을 활용해 명시적인 명령어로부터 로봇 조작의 추론 및 명령어 생산하고 VLM(~OVD)을 활용해 로봇을 위한 3차원 공간에 대한 이해를 얻어…
[ACM MM 2022] Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition
안녕하세요, 마흔 번째 X-Review입니다. 이번 논문은 2022년도 ACM MM에 게재된 Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition입니다. 바로 시작하도록 하겠습니다. 😵…
[CVPR 2024] Enhancing Multimodal Cooperation via Sample-level Modality Valuation
pdf code & dataset [2024.07.31 2.2 파트 설명 추가] 저는 현재 multimodal imbalance, multimodal bias와 관련하여 이를 해결하는 방법론을 제안하는 논문을 작성 중에 있습니다. 그런데…
[NeurIPS 2023 Spotlight] 3D-LLM: Injecting the 3D World into Large Language Models
안녕하세요, 마흔번째 x-review 입니다. 이번 논문은 2023년도 NeurIPS에 Spotlight 게재된 3D-LLM: Injecting the 3D World into Large Language Models입니다. 그럼 바로 리뷰 시작하겠습니다 ! 1….
[arXiv 2023] LLM4VG: Large Language Models Evaluation for Video Grounding
안녕하세요, 이번 주 X-Review에서는 23년도 말 arXiv에 게재된 <LLM4VG: Large Language Models Evaluation for Video Grounding> 이라는 논문을 소개해드리겠습니다. 방법론 논문은 아니고, 현존하는 LLM과 Multi-modal…
[CVPR 2021] Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representation Learning
안녕하세요, 허재연입니다. 이번에 다룰 논문은 Microsoft Research Asia에서 작성하여 CVPR2021에 게재된 논문으로, 현재 약 420회 인용되었습니다. 기존의 SimCLR, MoCo 등 Contrastive Learning 계열 Self-Supervised Learning…
[ECCV 2022] Simple Open-Vocabulary Object Detection with Vision Transformers (OWL-ViT)
안녕하세요. 저번 주에는 OWOD 태스크 중 Foundation model을 활용한 FOMO를 리뷰했었는데, 이번 주 리뷰는 FOMO의 베이스라인으로 활용됐던 OWL-ViT에 대해 리뷰를 해보려고 합니다. OWL-ViT는 Open-World Localization을…
[ICCV 2023] Verbs in Action: Improving Verb Understanding in Video-Language Models
제가 현재 연구주제로 잡은 task인 Moment Retrieval은 사용자의 텍스트 쿼리를 입력받아 길고 다양한 컨텐츠를 포함하고 있는 untrimmed video 내에서 상응하는 구간을 찾아내는 것이 목적입니다. 처음에는…
최신 댓글