Author: 천 혜원

Posted in X-Review

[ICASSP 2024] Improving Speech Emotion Recognition with Unsupervised Speaking Style Transfer

Introduction Speech Emotion Recognition(SER)이란 인간의 음성에서 감정을 인식하는 것을 의미합니다. 논문에서는 라벨링된 감정 데이터셋이 부족하여 SER 연구에 제악이 존재한다고 언급하고 있습니다. 또한 수집되는 대부분의 음성…

Continue Reading
Posted in X-Review

[ICASSP 2022] Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction

Introduction Automatic Speech Recognition이란 speech에서 text를 인식하는 것을 의미하며, 최근에는 딥러닝 기술을 적용한 ASR이 널리 활용되고 있습니다. 그러나 ASR 모델을 real-world에서 사용하고자 하는 경우, 입력…

Continue Reading
Posted in X-Review

[ICASSP 2024] RaD-Net: A Repairing and Denoising Network for Speech Signal Improvement

Introduction Speech communication system은 speech를 통해 발생하는 발화, 의사소통하는 것으로, 여러 가지 speech 관련 task에서 중요하게 다루어지고 있습니다. 그러나 speech를 마이크 센서를 통해 audio data로…

Continue Reading
Posted in X-Review

[INTERSPEECH 2021] Rethinking Evaluation in ASR: Are Our Models Robust Enough?

이번이 읽은 논문은 Interspeech 2021에서 발표된 “Rethinking Evaluation in ASR: Are Our Models Robust Enough?”논문으로, 음성인식 task에 관한 논문입니다. 음성 모델의 일반화 성능을 올리기 위해…

Continue Reading
Posted in X-Review

[Interspeech 2023] Episodic Memory For Domain-Adaptable, Robust Speech Emotion Recognition

Introduction Speech emotion recognition이란 음성 신호로부터 대상의 감정을 인식하는 task입니다. 인간의 의사 소통에서 감정은 행동이나 욕구에 반영되는 중요한 정보로 작용하기 때문에 human-computer interaction에서 Speech Emotion…

Continue Reading
Posted in X-Review

[ICCV 2023] Boosting Multi-modal Model Performance with Adaptive Gradient Modulation

Introduction 저자들은 최근 몇 년간 멀티모달 연구가 활발하게 진행되었고, 상당한 발전을 이루었음에도 여전히 challenge하다고 언급하였습니다. 단일 모달의 한계를 뛰어넘기 위해 모달리티 간의 fusion을 진행하였음에도 그렇게…

Continue Reading
Posted in X-Review

[NAACL 2022] Analyzing Modality Robustness in Multimodal Sentiment Analysis

최근 multi-modal 모델이 해당 모델을 구성하는 특정 single modality에 대해 의존성을 가지고 있는 지 검증하기 위해 관련 방법론을 서베이하였습니다. 이 논문은 서베이 중 발견한 논문으로,…

Continue Reading
Posted in X-Review

[CVPR 2022] Balanced Multimodal Learning via On-the-fly Gradient Modulation

Introduction 우리가 익히 알고 있듯, 사람은 시각, 청각, 촉각 등 여러 감각 기관을 사용하여 세상을 인지합니다. 이러한 방식에 영감을 받아 머신 러닝 분야에서는 다양한 센서로부터…

Continue Reading
Posted in X-Review

[ICLR 2017] Pruning Filters for Efficient ConvNets

이번주는 model compression 중 pruning 논문에 대해 다룬 “Pruning Filters for Efficient ConvNets”논문을 읽어보았습니다. 이 논문이 conv에 pruning을 적용한 근본 논문으로 볼 수 있는데요, 당분간…

Continue Reading
Posted in Paper X-Review

[MM 2022] Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment Analysis

Introduction Sentimental analysis란 텍스트의 어조가 긍정적인지, 부정적인지 혹은 중립적인지를 분석하는 task입니다. 최근에는 sns등에 image, audio, video 등 여러 모달리티를 통한 expression이 증가하였고, 이에 따라 Multimodal…

Continue Reading