[CVPR 2022] DN-DETR: Accelerate DETR Training by Introducing Query DeNoising
안녕하세요, 마흔여덟 번째 X-Review입니다. 이번 논문은 2022년도 CVPR에 게재된 DN-DETR: Accelerate DETR Training by Introducing Query DeNoising 논문입니다. 바로 시작하도록 하겠습니다. ? 1. Introduction DETR은…
[NeurIPS 2024] ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images
안녕하세요, 마흔 여섯번째 x-review 입니다. 이번 논문은 2024년도 NeurIPS에 게재된 ImOV3D라고, large scale의 이미지 detection용 데이터셋을 가지고 OV 3차원 검출을 수행하는 논문 입니다. 그럼 바로…
ACM MM ’24 학회 참관기
안녕하세요, 오늘은 논문 리뷰 대신 저번 주 다녀온 ACM Multimedia 학회 후기를 작성해보려 합니다. 학회는 호주에 있는 멜버른에서 10.28-11.1 총 5일간(월-금) 개최되었으며, 월요일과 금요일에는 워크샵,…
[CVPR 2024] EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything
1. Introduction 오늘 리뷰할 논문은 EfficientSAM 이라는 논문입니다. 이제는 널리 알려지고 활용되어지고 있는 Segment Anything Model (SAM) 의 후속작으로, 마찬가지로 Meta 에서 발표한 논문입니다. 그리고…
[ICML 2024 Oral] Chain of Code: Reasoning with a Language Model-Augmented Code Emulator
안녕하세요. 이번 리뷰는 제가 과거에 리뷰했던 reasoning path를 생성하는 Prompt Engineering 방법론인 Chain of Thought (CoT)에 이어, 동일 계열의 후속 논문 중 python code 기반의…
[AAAI 2024] SECap: Speech Emotion Captioning with Large Language Model
Introduction 본 논문의 intro에서는 기존 SER의 한계점을 바탕으로 저자들이 Speech emotion captioning이라는 task를 제안한 이유에 대해 설명하고 있는데요, 일반적으로 음성 감정인식은 분류 task로, 인간의 감정을…
[CVPR 2023] Weakly Supervised Video Emotion Detection and Prediction via Cross-Modal Temporal Erasing Network
pdf code 안녕하세요. 이번에는 video emotion detection 분야 논문을 읽어봤습니다. 이번에 과제 데모를 수행하면서 이미지 감정 인식 모델을 video입력을 처리할 수 있도록 변형해야 하는 task를…
[arXiv 2024] DEPTH PRO: Sharp Monocular Metric Depth In Less Than a Second
안녕하세요. 이번 리뷰에서는 센서과제에서 실제로 활용한 모델, 한달이 안되었지만 3.5K의 star를 받은 depth-pro에 대해 리뷰해보려 합니다. 본 논문의 ICLR나 NeurIPS 양식으로 쓰여졌지만, 애플에서 발표되었기에 테크…
[RA-L 2024]Uncertainty-Aware Suction Grasping for Cluttered Scenes
제가 이번에 리뷰할 논문도 로봇의 파지를 위한 인식연구로, 해당 내용은 사람처럼 쥐는 방식으로 물체를 잡는 게 아닌, 흡입 방식으로 물체를 파지하는 경우를 위한 연구입니다. 각…
[NeurIPS 2020] FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
안녕하세요, 허재연입니다. 오늘 다룬 논문은 2020년에 Google Research에서 NeurIPS에 게재한 논문으로, FixMatch라는 대표적인 Semi-Supervised Learning 방법론 중 하나 입니다. 지금껏 Active Learning이나 Self-Supervised Learning 계열…
1. CTC 기반의 텍스트 인식 모델의 학습 과정에 대해 설명을 드리면 대답이 될 것 같네요! 입력된 텍스트 이미지[H x W…