[카테고리:] X-Review

Paper, Conference, Seminar, API, Code, Dataset 등의 리뷰를 담을 예정입니다.

Posted in X-Review

[ECCV2024]R2-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding

안녕하세요. 박성준 연구원입니다. 오늘 제가 리뷰할 논문은 ECCV2024에 게재된 R2-Tuning 입니다. Introduction 먼저 R2-Tuning은 Video Temporal Grounding(VTG) task를 다룬 논문입니다. VTG란, untrimmed(정제되지 않은) video 내에서…

Continue Reading
Posted in X-Review

[CVPR 2024] MART: Masked Affective RepresenTation Learning via Masked Temporal Distribution Distillation

pdf code 안녕하세요. 이번에도 video task에서의 감정 관련 task를 들고 왔습니다. 최근에 연구주제에 대해서 고민이 깊어지면서 다양한 분야의 논문을 읽고 싶어 새롭게 시도하여 읽게 되었습니다….

Continue Reading
Posted in Conference X-Review

[CVPR 2022][Oral] Rethinking Semantic Segmentation: A Prototype View

안녕하세요. 이번 리뷰의 태그는 “semantic segmentation”, “prototype”입니다. 명료한 제목처럼 본 논문에선 이전 semantic segmentation 태스크의 prototype이 활용되어온 방향과, 그들의 단점으로 부터 새로운 prototype 학습 방식을…

Continue Reading
Posted in Paper X-Review

[CVPR 2022] DN-DETR: Accelerate DETR Training by Introducing Query DeNoising

안녕하세요, 마흔여덟 번째 X-Review입니다. 이번 논문은 2022년도 CVPR에 게재된 DN-DETR: Accelerate DETR Training by Introducing Query DeNoising 논문입니다. 바로 시작하도록 하겠습니다. 🦙 1. Introduction DETR은…

Continue Reading
Posted in Paper X-Review

[NeurIPS 2024] ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images

안녕하세요, 마흔 여섯번째 x-review 입니다. 이번 논문은 2024년도 NeurIPS에 게재된 ImOV3D라고, large scale의 이미지 detection용 데이터셋을 가지고 OV 3차원 검출을 수행하는 논문 입니다. 그럼 바로…

Continue Reading
Posted in Paper X-Review

[CVPR 2024] EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

1. Introduction 오늘 리뷰할 논문은 EfficientSAM 이라는 논문입니다. 이제는 널리 알려지고 활용되어지고 있는 Segment Anything Model (SAM) 의 후속작으로, 마찬가지로 Meta 에서 발표한 논문입니다. 그리고…

Continue Reading
Posted in X-Review

[ICML 2024 Oral] Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

안녕하세요. 이번 리뷰는 제가 과거에 리뷰했던 reasoning path를 생성하는 Prompt Engineering 방법론인 Chain of Thought (CoT)에 이어, 동일 계열의 후속 논문 중 python code 기반의…

Continue Reading
Posted in X-Review

[AAAI 2024] SECap: Speech Emotion Captioning with Large Language Model

Introduction 본 논문의 intro에서는 기존 SER의 한계점을 바탕으로 저자들이 Speech emotion captioning이라는 task를 제안한 이유에 대해 설명하고 있는데요, 일반적으로 음성 감정인식은 분류 task로, 인간의 감정을…

Continue Reading
Posted in X-Review

[CVPR 2023] Weakly Supervised Video Emotion Detection and Prediction via Cross-Modal Temporal Erasing Network

pdf code 안녕하세요. 이번에는 video emotion detection 분야 논문을 읽어봤습니다. 이번에 과제 데모를 수행하면서 이미지 감정 인식 모델을 video입력을 처리할 수 있도록 변형해야 하는 task를…

Continue Reading
Posted in X-Review

[arXiv 2024] DEPTH PRO: Sharp Monocular Metric Depth In Less Than a Second

안녕하세요. 이번 리뷰에서는 센서과제에서 실제로 활용한 모델, 한달이 안되었지만 3.5K의 star를 받은 depth-pro에 대해 리뷰해보려 합니다. 본 논문의 ICLR나 NeurIPS 양식으로 쓰여졌지만, 애플에서 발표되었기에 테크…

Continue Reading