[AAAI 2024] SECap: Speech Emotion Captioning with Large Language Model
Introduction 본 논문의 intro에서는 기존 SER의 한계점을 바탕으로 저자들이 Speech emotion captioning이라는 task를 제안한 이유에 대해 설명하고 있는데요, 일반적으로 음성 감정인식은 분류 task로, 인간의 감정을…
[CVPR 2023] Weakly Supervised Video Emotion Detection and Prediction via Cross-Modal Temporal Erasing Network
pdf code 안녕하세요. 이번에는 video emotion detection 분야 논문을 읽어봤습니다. 이번에 과제 데모를 수행하면서 이미지 감정 인식 모델을 video입력을 처리할 수 있도록 변형해야 하는 task를…
[arXiv 2024] DEPTH PRO: Sharp Monocular Metric Depth In Less Than a Second
안녕하세요. 이번 리뷰에서는 센서과제에서 실제로 활용한 모델, 한달이 안되었지만 3.5K의 star를 받은 depth-pro에 대해 리뷰해보려 합니다. 본 논문의 ICLR나 NeurIPS 양식으로 쓰여졌지만, 애플에서 발표되었기에 테크…
[RA-L 2024]Uncertainty-Aware Suction Grasping for Cluttered Scenes
제가 이번에 리뷰할 논문도 로봇의 파지를 위한 인식연구로, 해당 내용은 사람처럼 쥐는 방식으로 물체를 잡는 게 아닌, 흡입 방식으로 물체를 파지하는 경우를 위한 연구입니다. 각…
[NeurIPS 2020] FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence
안녕하세요, 허재연입니다. 오늘 다룬 논문은 2020년에 Google Research에서 NeurIPS에 게재한 논문으로, FixMatch라는 대표적인 Semi-Supervised Learning 방법론 중 하나 입니다. 지금껏 Active Learning이나 Self-Supervised Learning 계열…
[CVPR 2023] DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting
안녕하세요, 마흔일곱 번째 X-Review입니다. 이번 논문은 2023년도 CVPR에 게재된 DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting 논문입니다. 바로 시작하도록 하겠습니다. ?…
[CVPR 2024] pix2gestalt: Amodal Segmentation by Synthesizing Wholes
첫 번째 X-Review… 중간에 모르는 내용들이 많았어서 내용이 잘못 전달되거나 생략된 것 처럼 느껴지는 부분이 있으실 수 있을 것 같은데 감안하고 읽어주시면 감사하겠습니다..!! Introduction 우리는…
[ECCV 2024] SegPoint: Segment Any Point Cloud via Large Language Model
안녕하세요, 마흔 다섯번째 x-review 입니다. 엄청 오랜만에 엑스리뷰를 쓰는 것 같은데요, 이번 논문은 2024년도 ECCV에 게재된 SegPoint: Segment Any Point Cloud via Large Language Model입니다….
[2023 CVPR] Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?
안녕하세요. 이번에 리뷰할 논문은 기존의 텍스트-비디오 검색 방식에서 한 단계 발전하여, 비디오에 포함된 관련 텍스트 정보(예: 제목, 태그, 자막)를 활용하여 텍스트 쿼리를 더 효과적으로 매칭하는…
[ECCV 2024] HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts
이번에는 하이퍼볼릭 임베딩을 활용한 이미지-텍스트 데이터 필터링에 대한 논문을 리뷰해보겠습니다. 보다 구체적으로 말하자면, 단순히 이미지-텍스트 사이의 정렬만 집중하는 것이 아닌 CLIP에 Hyperbolic Embedding을 추가하여 데이터의…
안녕하세요 성준님 좋은 리뷰 감사합니다 Structured Reasoning 부분에서 하위 질문을 생성한다고 하셨는데 이때 생성 모델로는 무엇을 사용하고 프롬프트는 무엇을 사용하는지…