Category: Paper
Paper Review
[ECCV 2022] Simple Open-Vocabulary Object Detection with Vision Transformers
안녕하세요, 오늘의 X-Review는 22년도 ECCV에 게재된 Open-Vocabulary Object Detection (OVOD) 관련 논문입니다. 구글에서 진행된 연구네요. CLIP과 유사한 방식으로 영상과 텍스트 간 거대 사전학습을 수행한 후…
[CVPR 2020 oral] Unbiased Scene Graph Generation from Biased Training
Before Review 오랜만에 X-Review 입니다. 이번에 리뷰 할 논문은 Scene Graph Generation 논문입니다. 졸업전까지는 해당 연구 분야로 논문 연구를 해보려고 합니다. 논문을 한편 더 쓰고…
[Transactions on Machine Learning Research 2024] DINOv2: Learning Robust Visual Features without Supervision
이번에 소개드릴 논문은 DINOv2라는 논문입니다. Self-supervised Learning에서 매우 잘 알려진 Facebook AI Research의 DINOv1의 후속작으로 해당 논문도 마찬가지로 페이스북에서 공개한 논문입니다. 본 논문과 21년도 논문이었던…
[arXiv 2021] Probabilistic two-stage detection
안녕하세요, 서른한 번째 X-Review입니다. 이번 논문은 2021년도 arXiv에 올라온 Probabilistic two-stage detection입니다. 본 논문은 지지난 주 리뷰한 CenterNet의 후속작인 CenterNet2라고 해서 읽어봤는데요 ,, centernet을 이은…
[AAAI 2023] Superpoint Transformer for 3D Scene Instance Segmentation
안녕하세요, 스물 여덟 번째 x-review 입니다. 이번 논문은 2023년도 AAAI에 게재된 SPFormer: Superpoint Transformer for 3D Scene Instance Segmentation 입니다. 해당 논문은 3D Segmentation 논문으로…
[CVPR 2024] GigaPose: Fast and Robust Novel Object Pose Estimation via One Correspondence
안녕하세요, 이번에도 Zero-shot 기반의 object pose estimation 논문을 가져왔습니다. foundation model을 사용함에도 불구하고 기존의 방법론들에 비해 매우 빠른 속도를 보여주고 있어 흥미를 가지고 읽게 된…
[CVPR 2023] CAT: LoCalization and IdentificAtion Cascade Detection Transformer for Open-World Object Detection
안녕하세요. 교정기를 빼고 교정 유지기를 차고 오니 발음장애가 생겼습니다. 다행히 글 작성엔 무리가 없습니다. 논문 제목과 동시에 구조도를 보았을 때 제가 실험하려고 하는 바와 유사한…
[EAAI 2024] A fast, lightweight deep learning vision pipeline for autonomous UAV landing support with added robustness
안녕하세요, 서른 번째 X-Review입니다. 이번 논문은 2024년도 EAAI에 게재된 A fast, lightweight deep learning vision pipeline for autonomous UAV landing support with added robustness입니다. 본…
[CVPR 2021] Dense Contrastive Learning for Self-Supervised Visual Pre-Training
안녕하세요. 허재연입니다. 이번에 다룰 논문은 Self-Supervised Learning 논문이며, 그 중에서도 Contrastive Learning에 속합니다. 요즘 pedestrian detection에 SSL을 어떻게 적용해볼 수 있을까 고민하고 있는데, 관련해서 찾아보다…
[CVPR 2024] D3T: Distinctive Dual-Domain Teacher Zigzagging Across RGB-Thermal Gap for Domain-Adaptive Object Detection
안녕하세요.오늘 리뷰할 논문은 CVPR 2024에 accept된 따끈따끈한 논문입니다.Thermal Object Detection을 수행하는데에 있어서 RGB의 정보를 함께 사용해 UDA를 수행하는 논문이며, 제가 현재 진행중인 task와 매우 유사도가…
좋은 포인트를 지적해주신 것 같네요. 말씀하신 내용처럼, DiscoVLA는 PImgAlign 모듈에서 멀티모달 LLM인 LLaVA-NeXT를 활용해 프레임 단위의 pseudo-caption을 생성하고, 이를 통해…