X-Review – Page 55 – Robotics and Computer Vision Lab

[ICCV2023]Self-Feedback DETR for Temporal Action Detection

안녕하세요 박성준 연구원입니다. 오늘 제가 할 리뷰는 Self-Feedback DETR로 이번에 KCCV2023에서 포스터가 예정되어 있는 논문입니다. KCCV 2024에 앞서 일정을 훑어보는 중 흥미로워 보여서 읽게 되었습니다….

[ICCV 2023] RankMixup: Ranking-Based Mixup Training for Network Calibration

안녕하세요, 허재연입니다. 얼마 후 KCCV에 참석할 예정인데, oral 및 poster 논문들을 몇개 미리 파악하고 참석하고자 합니다. 오늘 다룰 논문은 이런 취지로 미리 논문들을 살펴보다 읽어본…

Paper X-Review

[CVPR2021] Open-Vocabulary Object Detection Using Captions

안녕하세요. 오늘 소개드릴 논문은 CVPR2021년도에 게재된 Open-Vocabulary Object Detection Using Captions라는 논문입니다. 본 논문은 open vocabulary object detection(OVD)라는 방법론을 처음 제안한 시초논문에 해당합니다. 본 논문을…

Paper X-Review

[arXiv 2023] Code as Policies: Language Model Programs for Embodied Control

이번 논문은 로봇 작업을 위한 정책 코드를 생성하는 방법론으로 최근 로보틱스 분야가 LLM과 함께 왜 각광 받는지를 보여주는 연구 내용으로 이해하시면 좋을 것 같습니다. Intro…

Conference X-Review

[CVPR 2023]LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding

안녕하세요. 제가 이번에 리뷰할 논문은 물체와 상호작용을 위한 특정 영역을 인식하기 위한 Affordance Grounding 논문입니다. Abstract 사람은 관찰을 통해 지식을 습득하는 능력이 있어 새로운 물건을…

News Paper X-Review

[2022 CVPR] UniVIP: A Unified Framework for Self-Supervised Visual Pre-training

안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 기존의 SSL 방법들이 ImageNet과 같은 단일 중심 객체 이미지에서 성공을 거두었지만 scene과 instance 간의 상관 관계 및 scene 내의…

Paper X-Review

[arXiv 2024] AffectGPT: Dataset and Framework for Explainable Multimodal Emotion Recognition

pdf Code&Dataset 안녕하세요! 따근따근한?? 7월 10일에 arXiv에 등록된 EMER 저자의 후속 논문을 가지고 와봤습니다. EMER 논문이 새로운 감정 인식의 포문을 연 논문이라 생각이 들지만 조금…

Paper X-Review

[NeurIPS 2023] CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection

안녕하세요, 마흔 한번째 x-review 입니다. 이번 논문은 2023년도 NeurIPS에 게재된 CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection입니다. 그럼 바로…

Paper X-Review

[arXiv 2024] MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval

안녕하세요, 이번 주도 Video Moment Retrieval task와 관련하여 리뷰를 작성해보겠습니다. 오늘 소개해드릴 논문은 올해 6월 arXiv에 게재된 <MLLM as Video Narrator: Mitigating Modality Imbalance in…

Conference X-Review

[ICML 2021] (CLIP) Learning Transferable Visual Models From Natural Language Supervision

Vision Language Model(VLM)의 근본인 CLIP 논문에 대해 리뷰해보겠습니다. 아이디어와 코드는 아주아주 간단한데, 현재시간 기준 19,543회의 인용률을 달성할 정도로 어마어마한 파급력을 가져온 논문이라는 것은 누구나 다…

Category: X-Review

[ICCV2023]Self-Feedback DETR for Temporal Action Detection

[ICCV 2023] RankMixup: Ranking-Based Mixup Training for Network Calibration

[CVPR2021] Open-Vocabulary Object Detection Using Captions

[arXiv 2023] Code as Policies: Language Model Programs for Embodied Control

[CVPR 2023]LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding

[2022 CVPR] UniVIP: A Unified Framework for Self-Supervised Visual Pre-training

[arXiv 2024] AffectGPT: Dataset and Framework for Explainable Multimodal Emotion Recognition

[NeurIPS 2023] CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection

[arXiv 2024] MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval

[ICML 2021] (CLIP) Learning Transferable Visual Models From Natural Language Supervision

Conference Deadline

NEW POST

New Comment