[INTERSPEECH 2023] Distant speech emotion recognition in an indoor human-robot interaction scenario

Introduction

Speech Emotion Recognition(SER)은 음성의 내용이 아닌 음성의 속성(예: 목소리의 높낮이, 강도 등)을 통해 인간의 감정을 인식하는 과정을 의미합니다. SER은 여러 분야에서 활용되고 있는데요, 그 중에서도 본 논문에서 다루는 것은 HRI 분야에서의 SER 기술 활용입니다. Human-robot Interaction (HRI)이란 인간과 로봇이 사회적으로 의미 있는 방식으로 상호작용하는 것을 의미하며, 로봇이 인간의 감정 상태를 이해하고 이에 맞게 반응하는 것이 중요하다고 하네요.

이 논문은 real indoor human-robot interaction 환경에서 음성 감정 인식을 수행하는 task에 대해 다루고 있으며, 특히, 실증 환경을 반영하여 음성 source와 로봇의 센서 간의 거리가 먼 상황에서 수집된 음성 데이터, 공간에 의해 발생하는 reverberation(echo), 로봇이 발생시키는 소음 등을 고려하고, 이를 처리하기 위한 방법 또한 살펴보고 있습니다.

논문의 intro 부분에서 저자들은 기존 음성 감정인식이 대부분 Human-Computer Interaction(HCL)에만 집중하고 있어 사용자가 마이크 바로 앞에 있는 경우만을 가정하고 있다고 지적하였습니다. 즉, 실증 환경에서 발생하는 acoustic channel에 의한 영향을 무시하고 있다는 것이죠.

일부 연구자들은 보다 실증환경에 적용하기 위한 SER을 위해 distance distortion에 강인한 featrue를 선택하고, 다양한 유형의 distortion에 강인한 encoder-decoder 구조를 채택하였습니다. 대표적으로 Salekin[7]은 거리 변화에 강인한 featrue를 추출하기 위해 frame 당 48개의 LLD를 선택하였고, various distant를 모델링하기 위해 서로 다른 위치에 7개의 고정 마이크를 설치하여 test 데이터를 수집하였습니다. Ahmed[8]는 공간에 의해 발생하는 reverberation를 모델링하기 위해, 인공적으로 생성한 Room Impulse Response(RIRs)로 특정 공간에 의해 왜곡된 음성 샘플을 학습 데이터에 활용하였습니다.

논문에서는 위의 연구들의 단점을 언급하였는데요, 먼저 로봇과 같이 SER이 활용될 시스템과 함께 구현되는 것을 고려하지 않았음을 문제로 지적하였습니다. 또한 위의 연구들은 내부적인 원인 외에 외부 소음에 의한 영향을 고려하지 않았다고 합니다. 즉, HRI에서 SER의 중요성에 대한 연구가 있었음에도, 음성 데이트를 입력으로 하는 시스템에서 주변 환경이 음향 채널에 미치는 영향을 분석하지 못하였다는 것입니다.

본 논문에서는 시뮬레이션된 acoustic modeling과 beamforming 기술을 사용하여 real HRI 시나리오에서 SER 성능을 평가하고 향상시키고자 하였습니다. 구체적으로는 HRI 시나리오에서 먼 거리의 음성을 사용하는 SER task를 수행하며, 목표 음성이 마이크에 도달하는 각도를 정확히 추정하고, beamforming 기술을 사용해 특정 방향에서 오는 신호를 강화하며, 실내 환경에서 발생하는 reverberation과 배경 noise을 줄이는 방법을 제안하였습니다. SER 모델은 Ladder Network를 기반으로 하였으며, 이를 MSP-Podcast 대규모 데이터를 사용하여 평가하였습니다.

Proposed Framework

HRI 상황에서 로봇은 카메라와 같은 센서를 사용하여 목표 화자의 위치를 파악할 수 있으며, 이에 따라 audio signal이 room 내부에서 반사되는 입사각 혹은 마이크를 향한 도착 방향(DOA)을 추정할 수 있다고 합니다. 이를 활용하면 reverberation (echo)로 인해 발생하는 distortion의 정도를 파악할 수 있습니다.

Proposed system

HRI(Human-Robot Interaction) 상황에서는 로봇이 카메라와 같은 센서를 사용하여 목표 화자의 위치를 파악할 수 있습니다. 이를 통해 음성 소스의 도착 방향(DOA, Direction of Arrival)을 더 정확하게 추정할 수 있게 되는데요, 이렇게 하면 실내 환경에서 발생하는 reverberation으로 인한 오류를 피할 수 있습니다.

이 논문에서는 [그림 1]과 같은 framework를 통해 mobile HRI 시나리오의 SER task에서 발생하는 문제를 해결하고자 하였습니다. 이 framework를 적용하기 위해 세 가지 사항을 가정하였습니다. 첫 번째는 target source의 angular position는 실내 reverberation의 error에 무관하게 정확하게 추정할 수 있다는 것입니다. 두 번째는 beamforming 기술은 target spaker의 angular position를 이용해 spatial filtering을 개선할 수 있다는 것입니다. 이는 여러 방향에서 발생하는 소리가 동일하게 들어오는 것이 아닌 지정된 angular position에서 발생하는 소리를 집중적으로 수집한다는 것을 의미합니다. 마지막은 indoor 환경에서 Time-Varying Acoustic Channel (TVAC)은 static condition에서 얻은 RIR(Room Impulse Responses)을 사용하여 구할 수 있다는 것입니다.

[그림 1]은 target speech source를 보다 실증 환경에 가깝도록 모델링한 뒤 SER 모델에 입력하는 framework를 나타내고 있습니다. 순서대로 설명드리자면, 먼저 환경 소음을 포함하고 있는 noise source와 target speech source를 합성합니다. 다음으로는 발화자의 위치를 가정하는 source locallization 정보를 입력하여 beamforming을 진행하고, 이를 통해 결과값인 enhanced target speech를 도출하게 됩니다. 마지막으로는 실제 indoor HRI 시나리오를 반영하기 위해 indoor Acoustic Modeling을 진행하는데요, 이는 static condition에서 얻은 RIR과 합성하여 특정 공간에서 발생하는 reverb 정보를 반영한 SER 데이터을 생성합니다.

Robotic platform and recording settings

저자들은 실증 SER 데이터셋을 모델링하기 위해 기존의 공개 데이터셋을 재녹음하였는데요, 이때 HCI 상황의 SER 데이터를 녹음할 때는 아래의 [그림 2]와 같은 방식으로 세팅하였습니다.

P1~3은 로봇의 위치로써 음성 신호를 받기 위한 마이크와 발화자(target source)의 위치를 측정하기 위한 카메라가 설치되는 곳이며, P2를 기준으로 2m 위치에 하나의 target speech와 두 개의 noise를 재생하기 위한 스피커를 배치하였습니다. 이때 noise source들은 target source로부터 45° 떨어지도록 하였으며 재생 시 P2 기준 SNR=5dB이 되도록 조정하였다고 합니다. 이때 로봇이 P2에 고정되어 있고, input source의 방향이 정면으로 고정된 상황이 static scenaro에 해당합니다.
앞서 intro에서 기존 SER은 화자의 위치 변화를 모델링하지 못하였다고 언급하였는데, 이에 저자들은 로봇의 위치를 P1, P2, P3로 변화시키고 target source를 기준으로 로봇의 머리를 21개의 다른 각도로 회전시키면서 각각 63개의 RIR을 획득하였습니다. 각도는 -50°에서 50°까지 5° 간격으로 변화시켰으며, 이때 0°는 로봇이 speech source를 직접 바라보는 방향을 의미합니다. 획득한 RIR을 사용하여 각 source에 augmentation을 적용하여 studio speaker가 음성 source를 재생한 위치에 따라 따라 RIR-Target_Source, RIR-Noise1_Source 및 RIR-Noise2_Source로 명명하였습니다.

Experiment and Results

Training databases

실험은 두 가지 데이터로 학습되었는데, 첫 번째는 Original_training이라 부르는 original MSP-Podcast입니다. 두 번째는 Simulated_training으로, MSP-Podcast에 RIR을 적용하고 인위적으로 nosie을 추가한 데이터셋입니다. Simulated_training 데이터셋은 RIR-Target_Source를 사용하여 생성되었습니다. 각 파티션의 25%는 P1에서 얻은 RIR과 컨볼루션 되었고, 나머지 75%는 나머지 62개의 RIR과 convolution 되었습니다. 그런 다음, 10dB에서 20dB 사이의 SNR을 가지는 noise를 인위적으로 추가하였습니다. 추가된 nosie은 DEMAND 데이터셋의 noise segments를 RIR-Noise1_Source와 RIR-Noise2_Source와 convolution하여 생성하였습니다. 그리고 최종적으로 얻은 reverberated noisy data는 D&S 및 MVDR beamforming 방법으로 결합하였다고 합니다.

Test databases

SER 성능 평가는 총 세 가지 조건에서 진행되었는데, 각각 MSP-Podcast의 original test partition인 Original_testing, 다음으로는 Original_testing에 beam forming scheme인 D&S 혹은 MVDR를 적용한 합성 데이터셋 Simulated_testing, 마지막으로는 HRI 환경에서 재녹음을 진행한 HRI_static에서 평가하였습니다.

Original training data & real HRI testing

위의 [표 1]은 Original_training으로 학습하고 dynamic testing scenario에서 평가하였을 때의 Concordance Correlation Coefficient를 의미합니다. [표 1]을 보면 Original_testing과 비교했을 때 HRI_static에서 가장 큰 성능 하락이 발생하였고, D&S와 MVDR beamforming은 SNR을 증가시키고 Original_testing과 비교했을 때 arousal, dominance, valence의 성능 drop이 완화되는 것을 확인할 수 있습니다.

Models trained & tested with simulated data

위의 [표 2]는 Simulated_training 데이터로 학습하고 Simulated_testing 데이터로 평가한 Ladder Network의 결과를 보여줍니다. 두 가지 조건, 즉 Simulated+D&S와 Simulated+MVDR이 적용되었습니다. 이 결과는 static condition에서 Original_training 및 Original_testing 결과와 비교할 수 있는데, [표 1]과 [표 2]를 보면 Simulated+D&S와 Simulated+MVDR에서 CCC 점수가 각각 29.15%와 34.44% 감소한 것을 확인할 수 있습니다. 논문에서는 noise와 reverb를 추가한 것이 데이터에 uncertaincy를 부여하였기 때문이라고 언급하였습니다. 그럼에도 [표 1]의 HRI_static+D&S 및 HRI_static+MVDR보다 [표 2]의 Simulated결과가 더 좋은 것을 확인할 수 있는데, 논문에서는 이를 학습 및 평가 데이터가 유사한 조건에서 생성되었기 때문이라고 하였습니다.

Models trained with simulated & tested in real HRI

마지막으로 simulated로 학습하고 HRI 데이터로 평가한 결과인데요, [표1]과 비교하였을 때 보다 성능이 향상된 것을 확인할 수 있습니다.

Author: 천 혜원

1 thought on “[INTERSPEECH 2023] Distant speech emotion recognition in an indoor human-robot interaction scenario

  1. 리뷰를 읽고 이해가 잘 안되는 부분이 많아 질문드립니다.

    저자가 제안하는 프레임워크를 “[그림 1]은 target speech source를 보다 실증 환경에 가깝도록 모델링한 뒤 SER 모델에 입력하는 framework를 나타내고 있습니다. 순서대로 설명드리자면, 먼저 환경 소음을 포함하고 있는 noise source와 target speech source를 합성합니다. 다음으로는 발화자의 위치를 가정하는 source locallization 정보를 입력하여 beamforming을 진행하고, 이를 통해 결과값인 enhanced target speech를 도출하게 됩니다. 마지막으로는 실제 indoor HRI 시나리오를 반영하기 위해 indoor Acoustic Modeling을 진행하는데요, 이는 static condition에서 얻은 RIR과 합성하여 특정 공간에서 발생하는 reverb 정보를 반영한 SER 데이터을 생성합니다.”
    이라고만 서술하셨는데…

    1. “먼저 환경 소음을 포함하고 있는 noise source와 target speech source를 합성힙니다”
    -> 해당 논문은 HCI를 강조하는 거로 봐서 저희가 흔히 아는 noise가 아닌 다른 데이터셋을 사용하는 건가 하는 의문이 드는데, 어떤 noise 데이터를 어떤 방식을 사용하여 합성하나요?

    2. “발화자의 위치를 가정하는 source locallization 정보를 입력하여 beamforming을 진행하고, 이를 통해 결과값인 enhanced target speech를 도출”
    -> localization은 마이크로부터의 상대위치인가요? 그리고 beamforming이 무엇이길래 enhanced target speech를 도출할 수 있는건가요?

    3. “static condition에서 얻은 RIR과 합성하여 특정 공간에서 발생하는 reverb 정보를 반영한 SER 데이터을 생성”
    -> 어떻게 RIR을 합성해서 Reverb 정보를 반영할 수 있는건가요? 그 근거에 대해 설명 부탁합니다. 또한 이런 데이터가 실제 환경의 노이즈와 리버블 충분히 반영하는지에 대한 의문이 드는데 이와 관련한 기존 연구에서의 실험은 어떻게 진행하나요?

    독자는 Vision 연구실 연구원임을 고려하였으면, Time-Varying Acoustic Channel(TVAC), Delay-and-Sum(D&S), Minimum Variance Distortionless Response(MVDR) 등 해당 내용이 무엇인지 보다 자세하게 설명하는 리뷰가 되어야 하지 않을까 싶습니다.
    논문에서는 이런 단어가 무엇인지 하나하나 설명하지 않겠죠, 그러나.. 독자는 비전 연구원이기에… 설명이 논문에 안나와있다고 넘어가지 마시고, 직접 찾아서 대댓글 혹은 본문 수정 부탁드립니다. 혜원님도 잘 아는 워딩인지 궁금하기도 하기에, 아는 워딩이라 따로 적지 않은거라면 해당 내용이 무엇인지 정리할 겸 본문을 수정해주시면 혜원님에게도 도움이되지 않을까 싶습니다

    실험부분에서 갑자기 “D&S 및 MVDR beamforming 방법으로 결합” 하였다고 했는데… 이게 무엇인지 나와있지도 않고…

    다음 리뷰에는 부디 제가 지적한 사항을 잘 받아들여서 비어있는 내용이 없는 꼼꼼한 리뷰를 작성해주시기 바랍니다.
    제가 다음 리뷰도 지켜보겠습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다