[월:] 2024년 07월

Posted in X-Review

[CVPR 2024] DETRs Beat YOLOs on Real-time Object Detection

안녕하세요. 실수로 집에 아이패드를 두고 오는 바람에, 리뷰 작성이 조금 늦어졌습니다. 지난 주 10번째 버전의 Yolo-v10을 리뷰 했었습니다. 해당 리뷰를 읽으셨다면 실험 파트에서 비교군으로 삼던…

Continue Reading
Posted in B.S. X-Diary

2024년 상반기 회고 – 조현석

안녕하세요. 조현석 연구원입니다. 해당 회고글이 7월이 시작하기 전에 업로드가 되었어야 했으나, 해당 주차에 개인적으로 고민거리가 있어서 거기에 시간을 할애하느라 제 시간에 작성하지 못했고 이제서야 업로드를…

Continue Reading
Posted in Conference Paper X-Review

[ECCV 2022] Simple Open-Vocabulary Object Detection with Vision Transformers (OWL-ViT)

안녕하세요. 저번 주에는 OWOD 태스크 중 Foundation model을 활용한 FOMO를 리뷰했었는데, 이번 주 리뷰는 FOMO의 베이스라인으로 활용됐던 OWL-ViT에 대해 리뷰를 해보려고 합니다. OWL-ViT는 Open-World Localization을…

Continue Reading
Posted in X-Review

[IEEE TAC 2024] Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition

오늘 리뷰할 논문은 Vesper로 대규모의 음성 사전학습 모델을 감정인식이라는 특정 task에 대해 adaptation을 진행함과 더불어 경량화를 진행하는 논문입니다. 본격적인 리뷰에 앞서 간단하게 개요를 설명드리자면 general…

Continue Reading
Posted in News X-Review

[ECCV 2020]End-to-End Object Detection with Transformers(DETR)

안녕하세요. 조현석 연구원입니다. 오늘은 End-to-End Object Detection with Transformers이란 논문을 가져왔습니다. DETR이라는 모델의 이름으로 유명한 해당 논문을 x-review로 작성하게 된 계기는 연구실 세미나, 특히 다양한…

Continue Reading
Posted in Conference X-Review

[CVPR 2024]FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

제가 이번에 리뷰할 논문은 미학습 객체에 대응하기 위한 6D Pose Estimation 논문으로, 미학습 객체의 pose 정보를 추정하기 위한 서로 다른 세팅(3D CAD 모델을 사용하는 model-based방식과…

Continue Reading
Posted in Paper X-Review

[ICCV 2023] Verbs in Action: Improving Verb Understanding in Video-Language Models

제가 현재 연구주제로 잡은 task인 Moment Retrieval은 사용자의 텍스트 쿼리를 입력받아 길고 다양한 컨텐츠를 포함하고 있는 untrimmed video 내에서 상응하는 구간을 찾아내는 것이 목적입니다. 처음에는…

Continue Reading
Posted in News Paper X-Review

[CVPR 2022] Learning What and Where to Learn: A New Perspective on Self-supervised Learning

안녕하세요 정의철 연구원입니다. 이번에 제가 리뷰할 논문은 2022년 CVPR에 발표된 ‘Learning What and Where to Learn: A New Perspective on Self-supervised Learning’이란 논문입니다. 이 논문은…

Continue Reading
Posted in Paper X-Review

쌍곡 신경망 (Hyperbolic Neural Network) (Part.1)

쌍곡 심층 학습 (Hyperbolic Deep Learning) 요즘 제가 풀고 싶은 문제가 Scene Graph Generation 에서의 Long Tail Distribution 문제 입니다. Logng Tail 문제에서 결국 Head…

Continue Reading
Posted in X-Review

[ArXiv2024]The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval

안녕하세요. 박성준 연구원입니다. 오늘 리뷰할 논문은 아직 아카이브에만 등재되어있긴하지만, Moment Retrieval task에 MLLM을 활용해 SOTA를 달성한 Mr.BLIP 모델입니다. 논문의 양식을 보아 ECCV에 제출할 것으로 예상되는…

Continue Reading