[카테고리:] X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in Paper X-Review

[arXiv 2023] Code as Policies: Language Model Programs for Embodied Control

이번 논문은 로봇 작업을 위한 정책 코드를 생성하는 방법론으로 최근 로보틱스 분야가 LLM과 함께 왜 각광 받는지를 보여주는 연구 내용으로 이해하시면 좋을 것 같습니다. Intro…

Continue Reading
Posted in Conference X-Review

[CVPR 2023]LOCATE: Localize and Transfer Object Parts for Weakly Supervised Affordance Grounding

안녕하세요. 제가 이번에 리뷰할 논문은 물체와 상호작용을 위한 특정 영역을 인식하기 위한 Affordance Grounding 논문입니다. Abstract 사람은 관찰을 통해 지식을 습득하는 능력이 있어 새로운 물건을…

Continue Reading
Posted in News Paper X-Review

[2022 CVPR] UniVIP: A Unified Framework for Self-Supervised Visual Pre-training

안녕하세요 정의철 연구원입니다. 이번에 소개할 논문은 기존의 SSL 방법들이 ImageNet과 같은 단일 중심 객체 이미지에서 성공을 거두었지만 scene과 instance 간의 상관 관계 및 scene 내의…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] AffectGPT: Dataset and Framework for Explainable Multimodal Emotion Recognition

pdf Code&Dataset 안녕하세요! 따근따근한🔥🔥 7월 10일에 arXiv에 등록된 EMER 저자의 후속 논문을 가지고 와봤습니다. EMER 논문이 새로운 감정 인식의 포문을 연 논문이라 생각이 들지만 조금…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2023] CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection

안녕하세요, 마흔 한번째 x-review 입니다. 이번 논문은 2023년도 NeurIPS에 게재된 CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection입니다. 그럼 바로…

Continue Reading
Posted in Paper X-Review

[arXiv 2024] MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval

안녕하세요, 이번 주도 Video Moment Retrieval task와 관련하여 리뷰를 작성해보겠습니다. 오늘 소개해드릴 논문은 올해 6월 arXiv에 게재된 <MLLM as Video Narrator: Mitigating Modality Imbalance in…

Continue Reading
Posted in Conference X-Review

[ICML 2021] (CLIP) Learning Transferable Visual Models From Natural Language Supervision

Vision Language Model(VLM)의 근본인 CLIP 논문에 대해 리뷰해보겠습니다. 아이디어와 코드는 아주아주 간단한데, 현재시간 기준 19,543회의 인용률을 달성할 정도로 어마어마한 파급력을 가져온 논문이라는 것은 누구나 다…

Continue Reading
Posted in X-Review

[NeurIPS 2022] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

안녕하세요. 이번 리뷰는 Chain-of-Thought Prompting에 대해 리뷰해보려고 합니다. 저는 저희 팀 grasping 과제 제안서에서 언급되던 프롬프팅에 관련하여 이해를 돕고자 본 논문을 찾게 되었습니다. 부록까지 포함하면…

Continue Reading
Posted in X-Review

[INTERSPEECH 2023] Distant speech emotion recognition in an indoor human-robot interaction scenario

Introduction Speech Emotion Recognition(SER)은 음성의 내용이 아닌 음성의 속성(예: 목소리의 높낮이, 강도 등)을 통해 인간의 감정을 인식하는 과정을 의미합니다. SER은 여러 분야에서 활용되고 있는데요, 그…

Continue Reading
Posted in News X-Review

[ICLR 2021] DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

0. Introduction 앞선 x-review에서 소개했던 DETR은 기존의 OD테스크를 위한 검출기들의 다양한 hand-desiged된 요소들을 제거하여 사람의 사전지식과 하이퍼파라미터 튜닝의 어려움에서 벗어나게 해주었습니다. DETR은 단순한 구조를 갖지만…

Continue Reading