[월:] 2024년 11월
[ECCV2024]R2-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding
안녕하세요. 박성준 연구원입니다. 오늘 제가 리뷰할 논문은 ECCV2024에 게재된 R2-Tuning 입니다. Introduction 먼저 R2-Tuning은 Video Temporal Grounding(VTG) task를 다룬 논문입니다. VTG란, untrimmed(정제되지 않은) video 내에서…
[CVPR 2024] MART: Masked Affective RepresenTation Learning via Masked Temporal Distribution Distillation
pdf code 안녕하세요. 이번에도 video task에서의 감정 관련 task를 들고 왔습니다. 최근에 연구주제에 대해서 고민이 깊어지면서 다양한 분야의 논문을 읽고 싶어 새롭게 시도하여 읽게 되었습니다….
[CVPR 2022][Oral] Rethinking Semantic Segmentation: A Prototype View
안녕하세요. 이번 리뷰의 태그는 “semantic segmentation”, “prototype”입니다. 명료한 제목처럼 본 논문에선 이전 semantic segmentation 태스크의 prototype이 활용되어온 방향과, 그들의 단점으로 부터 새로운 prototype 학습 방식을…
[CVPR 2022] DN-DETR: Accelerate DETR Training by Introducing Query DeNoising
안녕하세요, 마흔여덟 번째 X-Review입니다. 이번 논문은 2022년도 CVPR에 게재된 DN-DETR: Accelerate DETR Training by Introducing Query DeNoising 논문입니다. 바로 시작하도록 하겠습니다. 🦙 1. Introduction DETR은…
[NeurIPS 2024] ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images
안녕하세요, 마흔 여섯번째 x-review 입니다. 이번 논문은 2024년도 NeurIPS에 게재된 ImOV3D라고, large scale의 이미지 detection용 데이터셋을 가지고 OV 3차원 검출을 수행하는 논문 입니다. 그럼 바로…
ACM MM ’24 학회 참관기
안녕하세요, 오늘은 논문 리뷰 대신 저번 주 다녀온 ACM Multimedia 학회 후기를 작성해보려 합니다. 학회는 호주에 있는 멜버른에서 10.28-11.1 총 5일간(월-금) 개최되었으며, 월요일과 금요일에는 워크샵,…
[CVPR 2024] EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything
1. Introduction 오늘 리뷰할 논문은 EfficientSAM 이라는 논문입니다. 이제는 널리 알려지고 활용되어지고 있는 Segment Anything Model (SAM) 의 후속작으로, 마찬가지로 Meta 에서 발표한 논문입니다. 그리고…
[ICML 2024 Oral] Chain of Code: Reasoning with a Language Model-Augmented Code Emulator
안녕하세요. 이번 리뷰는 제가 과거에 리뷰했던 reasoning path를 생성하는 Prompt Engineering 방법론인 Chain of Thought (CoT)에 이어, 동일 계열의 후속 논문 중 python code 기반의…
[AAAI 2024] SECap: Speech Emotion Captioning with Large Language Model
Introduction 본 논문의 intro에서는 기존 SER의 한계점을 바탕으로 저자들이 Speech emotion captioning이라는 task를 제안한 이유에 대해 설명하고 있는데요, 일반적으로 음성 감정인식은 분류 task로, 인간의 감정을…
[CVPR 2023] Weakly Supervised Video Emotion Detection and Prediction via Cross-Modal Temporal Erasing Network
pdf code 안녕하세요. 이번에는 video emotion detection 분야 논문을 읽어봤습니다. 이번에 과제 데모를 수행하면서 이미지 감정 인식 모델을 video입력을 처리할 수 있도록 변형해야 하는 task를…
최신 댓글