Category: X-Review
Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.
[ICCV 2019] Active Learning for Deep Detection Neural Networks
Object Detection을 위한 Active Learning 을 수행한 초창기 논문에 대해 리뷰해보려고 합니다. Active Learning이라는 연구에서는 대부분이 Classification 위주로 진행되고 있습니다. 그러나 실제 산업계에서는 Classification 보단,…
[CVPR2024] DepthAnything: Unleashing the Power of Large-Scale Unlabeled Data
이번에 소개 드릴 논문은 DepthAnything이라는 논문입니다. 논문 및 코드가 공개된지는 몇개월 됐지만 지난 2월 26일날에 CVPR accept list가 공개되면서 본 논문도 CVPR2024에 게재된 것이 확인됐네요….
[NIPS 2023w] An Information-Theoretic Understanding of Maximum Manifold Capacity Representations
이 논문의 주요 키워드 Representation Learning Self-supervised Learning 이 논문을 깊게 이해하려면 다음 지식이 필요합니다. MMCR에 대한 이해 (MMCR 리뷰) Self-supervised representation learning에 대한 이해…
[CVPR 2024] YOLO-World: Real-Time Open-Vocabulary Object Detection
안녕하세요. 이번 리뷰는 YOLO (You Only Look Once)를 베이스로 한 Open-Vocabulary Object Detection (통칭 OVD) 연구입니다. Arxiv에 며칠 전까지 수정된 따끈따끈한 논문이네요. 지난 리뷰에서 새로운…
[CVPR 2020] What Makes Training Multi-modal Classification Networks Hard?
안녕하세요! 이번에도 multimodal 관련 논문을 들고 왔는데요. 제목이 굉장히 흥미가 돋지 않습니까? 그래서 리뷰하고자 하였습니다. 그럼 리뷰 시작합니다! <Abstract> 본 논문에서는 multimodal 성능이 un-modal 성능에…
[ICCV2023]UnLoc: A Unified Framework for Video Localization Tasks
안녕하세요 오늘은 또 다른 moment retrieval 논문입니다. trimmed video을 다루는 tasks에서는 CLIP과 같은 image-text 사전 학습 모델을 활용하는 연구가 많이 진행되고 있습니다. 하지만, untrimmed video를…
[ICCV 2021] MDETR – Modulated Detection for End-to-End Multi-Modal Understanding
안녕하세요. 논문 리비전 이후 몇몇 업무들을 마친 이후, 한숨을 돌리고 3월 석사의 시작과 동시에 관심 분야의 OWOD에 대한 이해를 위한 논문 읽기에 열을 올릴 예정입니다….
[PR-L 2023] Jigsaw-ViT: Learning jigsaw puzzles in vision transformer
안녕하세요, 허재연입니다. 오늘은 Representation Learning 논문을 들고 왔습니다. 사실 representation learning이라 함은 pretext task나 adversarial learning, contrastive learning 등 사전학습을 거쳐서 모델이 데이터에 대한 일반적인…
[3DV 2021] RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching
안녕하세요, 스물네 번째 X-Review입니다. 이번 논문은 2021년도 3DV에게재된 RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching 논문으로 Optical flow 방법론인 RAFT의 stereo matching 버전입니다. 그럼…
[ICLR 2020] Deep Batch active Learning by Diverse, Uncertain Gradient Lower Bounds
안녕하세요 정의철 연구원입니다. 제가 이번에 리뷰할 논문은 ‘ Deep Batch active Learning by Diverse, Uncertain Gradient Lower Bounds’입니다. 이 논문에서는 Batch active Learning에 대한 새로운…
1. CTC 기반의 텍스트 인식 모델의 학습 과정에 대해 설명을 드리면 대답이 될 것 같네요! 입력된 텍스트 이미지[H x W…