Author: 천 혜원
[AAAI 2024] SECap: Speech Emotion Captioning with Large Language Model
Introduction 본 논문의 intro에서는 기존 SER의 한계점을 바탕으로 저자들이 Speech emotion captioning이라는 task를 제안한 이유에 대해 설명하고 있는데요, 일반적으로 음성 감정인식은 분류 task로, 인간의 감정을…
[ICASSP 2024]Enhancing Two-Stage Finetuning for Speech Emotion Recognition Using Adapters
Introduction Speech Emotino Recognition은 사용자의 음성에서 감정을 인식하는 task로, SER 기술은 Human-computer Interaction 분야에서 사용자 친화적인 환경을 구축하기 위해 사용된다고 합니다. 초기 SER 연구에서는 supervised…
[INTERSPEECH 2024]SELM: Enhancing Speech Emotion Recognition for Out-of-Domain Scenarios
Introduction Speech Emotion Recognition은 사람의 음성이 나타내는 감정을 인식하는 task입니다. 사람은 일반적으로 음성 대화 과정에서 다양한 감정을 표현하고 있기 때문에, 대화의 맥락을 이해하고 적절히 반응하기…
[ACL 2024] emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation
Introduction 본 논문은 SER task의 논문으로 이전 리뷰에서 설명드린 바와 같이 음성 데이터 바탕으로 화자의 감정을 예측하는 task입니다. 전통적으로 SER은 음성의 어조를 바탕으로 감정을 유추하는데요,…
[INTERSPEECH 2023] Distant speech emotion recognition in an indoor human-robot interaction scenario
Introduction Speech Emotion Recognition(SER)은 음성의 내용이 아닌 음성의 속성(예: 목소리의 높낮이, 강도 등)을 통해 인간의 감정을 인식하는 과정을 의미합니다. SER은 여러 분야에서 활용되고 있는데요, 그…
[ICASSP 2023]Unifying Speech Enhancement and Separation with Gradient Modulation for End-to-End Noise-Robust Speech Separation
본 논문은 speech enhancemeht와 speech separation task를 e2e 방식으로 수행하며, downstream인 separation에 유효한 정보의 손실을 막기 위해 gradient modulation을 사용하는 방법론에 관한 것으로, speech enhancemet를…
[IEEE TAC 2024] Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition
오늘 리뷰할 논문은 Vesper로 대규모의 음성 사전학습 모델을 감정인식이라는 특정 task에 대해 adaptation을 진행함과 더불어 경량화를 진행하는 논문입니다. 본격적인 리뷰에 앞서 간단하게 개요를 설명드리자면 general…
2024 상반기 회고
우선 상반기에 했던 활동 중 기억에 남는 일부터 하나씩 정리해보겠습니다. 감정인식 작년 12월 말부터 5월 정도까지 김주연 연구원님과 멀티모달 감정인식 논문을 진행했습니다. 기존에 실험 논문…
[INTERSPEECH 2023] Feature Normalization for Fine-tuning Self-Supervised Models in Speech Enhancement
본 논문은 speech enhancement task를 다루는 논문이며, 그 중에서도 사전 학습된 large audio 모델을 사용할 때, 학습에 사용된 데이터(clean)과 downstream인 SE에 사용되는 데이터(noisy) 간의 domain…
[IEEE Trans Affect Comput 2022] Multitask Learning From Augmented Auxiliary Data for Improving Speech Emotion Recognition
Introduction Speech Emotion Recognition (SER)은 인간-컴퓨터 상호작용을 새롭게 정의하는 중요한 연구 분야입니다. 이 기술은 고객 서비스, 의료, 교육, 운송, 포렌식, 미디어 등 다양한 분야에서 매우…
최신 댓글