[HRI 2026] CareEval: Evaluating Large Language Models for Decision-Making in Physical Robot Caregiving

안녕하세요. 이번에는 물리적 로봇 돌봄에서 LLM을 얼마나 믿을 수 있는지 평가한 논문을 읽어보게 되었습니다. 쉽게 말하면, 로봇이 사람을 실제로 들어주고, 씻겨주고, 옷 입히는 상황에서 LLM이 전문가처럼 안전한 판단을 할 수 있는지 확인하는 논문입니다. 그럼 시작하겠습니다.

1 Introduction

어떤 환자가 있다고 해봅시다. 뇌졸중 이후 왼쪽 몸통과 다리가 약해지고, 어깨 가동 범위가 제한된 사람이 의자에서 일어나 화장실에 가야 하는 상황입니다. 원래는 가족 돌봄 제공자가 도와주지만, 지금은 돌봄 로봇이 대신 도와야 한다고 가정합니다.
이때 로봇이 LLM에게 어떻게 도와야 하는지 물어보는데요. LLM은 “환자의 팔을 들어 부드럽게 당겨서 의자 옆에 서도록 돕고, 균형을 지지하라”는 식의 안내를 제안합니다. 겉으로 보면 꽤 그럴듯해 보입니다. 하지만 저자는 여기서 문제가 많다고 지적합니다.
먼저, 어느 팔을 들어야 하는지 말하지 않습니다. 사용자는 왼쪽 기능 제한이 있기 때문에 잘못 당기면 어깨 통증이나 부상이 생길 수 있습니다. 그리고 동의를 묻지 않고 바로 신체 접촉을 하도록 합니다. 또한 준비 상태 확인, 언어적 단서 제공도 빠져 있습니다. 무엇보다 사용자가 스스로 할 수 있는 부분을 살리는 것이 아니라, 로봇이 억지로 일으키는 방식에 가깝습니다. 정말 생각보다 고려할 것이 참 많죠?
여기서 핵심 질문이 나오는데요. 바로, LLM이 real physical caregiving tasks에 대해 expert-aligned된 임상적으로 적절한 안내를 만들 수 있는가입니다.
저자들은 이 질문에 답하기 위해 CareEval을 제안합니다. CareEval은 100개의 realistic scenarios를 포함하고, ADLs(일상생활동작) 6개를 다루도록 구성되었습니다. 그리고 각 scenario는 user function agency, intent, communication, safety 같은 physical caregiving의 핵심 요소를 포함하도록 설계되었습니다.

본 논문의 contribution을 정리하면 아래와 같습니다.

CareEval은 physical robot caregiving을 위한 LLM decision-making benchmark를 제안함
licensed OT(면허 작업치료사)와 함께 100개의 realistic caregiving scenarios를 만들고, 8명의 이해관계자로 content validation을 수행함
9개의 최신 LLM을 평가하여 최고 성능도 53.1%에 그친다는 것을 보여줌
LLM이 user agency와 functional safety를 통합하는 데 특히 약하다는 failure mode를 분석함

2.Benchmarking Physical Caregiving Decisions

이 section에서는 CareEval이 어떤 능력을 평가하고, scenario를 어떻게 만들었고, model response를 어떻게 채점하는지 설명하도록 하겠습니다.

2.1 Domains of Caregiving Competence

먼저 논문은 physical caregiving에 필요한 역량을 4개의 도메인으로 나눕니다.
첫 번째는 User Function입니다. 사용자의 근력, 관절 가동 범위, 균형, 통증, 좌우 비대칭, 회복 단계, 체중 부하 가능 상태를 고려해 행동을 선택하는 것입니다.
두 번째는 User Agency입니다. 단순히 돌봄 제공자나 로봇이 대신 해주는 것이 아니라, 사용자의 선택, 편안함 정도, 통제감을 살리는 것입니다. 예를 들어 식사에서는 사용자가 원하는 순서와 타이밍에 맞게 음식을 제공하는 것이 여기에 해당합니다.
세 번째는 Communication & Intent입니다. 로봇이 무엇을 하려는지 말하고, physical contact 전에 준비 상태를 확인하고, 여러 단계 task 중에 상호 이해을 유지하는 것입니다.
네 번째는 Functional Safety입니다. 위험, 금기, 노력 수준, 의학적 응급상황를 파악하고, 필요하면 더 안전한 기술이나 추가 지지를 선택하는 것입니다.

2.2 Scenario Development and Validation

CareEval은 assessment developmenㅅ와 content validation의 표준 절차를 따라 만들어졌다고 합니다. 저자들은 occupational therapy와 관련 보건 전문직의 돌봄 역량 지침을 바탕으로 앞서 말한 4개의 도메인을 정의했습니다.
scenario는 ADLs 6개를 모두 포함하도록 만들었으며, 뇌졸중, 경추 척수손상, multiple sclerosis, MS(다발성 경화증), amyotrophic lateral sclerosis, ALS(근위축성 측삭경화증)처럼 성인에게 흔한 심한 신체 장애를 다루었습니다. 각 장애에 대해 적어도 2개 이상의 scenario를 넣었다고 합니다.

각 scenario에는 구조화된 응답과 임시 점수가 붙습니다. 점수는 +2부터 -2까지인데요.

+2는 최선의 실제 돌봄
+1은 대체로 적절하지만 조금 덜 완전한 선택
0은 중립적이거나 일부만 맞는 선택
-1은 좋지 않은 선택
-2는 부적절한 실제 돌봄

이후 8명의 이해관계자가 validation에 참여했습니다. 8명 모두 돌봄 전문가라고 보시면 되겠습니다.
이해관계자는 각 시나리오가 caregiving process를 얼마나 잘 보여주는지, content validity가 얼마나 높은지 1점부터 5점까지 평가했습니다.

3.3 Assessing Model Response

이제 모델 응답을 어떻게 평가하는지 보겠습니다. CareEval은 각 scenario에 사용자, task, relevant constraints을 짧게 제공합니다. 그 다음 LLM에게 해당 상황에서 어떻게 행동할지 간결한 자연어 답변를 만들게 합니다.
각 scenario에는 채점 항목이 있는데요. 이 채점 항목은 전문 돌봄 제공자가 중요하게 생각할 decision을 나타냅니다.

3.4 Evaluation Protocol

evaluation protocol은 모든 모델에 똑같이 적용됩니다. 각 LLM은 작업치료사이자 돌봄 제공자 역할을 부여받고, 기대 응답 형식에 맞게 답변을 생성합니다.
그 다음 답변은 별도의 채점 모델이 평가합니다. 이 채점 모델은 각 채점 항목이 모델 응답에 들어 있는지 이진 판단으로 표시합니다.
중요한 점은 채점 모델이 채점 점수를 보지 않는다는 것인데요. 채점 모델은 항목 텍스트와 모델 응답만 보고 “이 내용이 있는가?”를 판단합니다.
전체 모델 성능은 모든 scenario에서 얻은 score를 maximum possible score로 나눈 백분율입니다. 그리고 grader validity는 작업치료 교육자의가 수동으로 검토하여 확인하였다고 합니다.

4 Results and Analysis

Figure 2는 모델 성능를 보여주는데요. 위쪽 plot는 overall performance와 ADL-specific performance를 보여주고, 아래쪽 plot는 severe error와 mild error개수를 보여줍니다.

먼저 전체 결과를 보면 가장 좋은 모델은 GPT-5.1로, overall performance가 53.1%입니다. 하지만 이것도 절반을 조금 넘는 수준인데요. physical caregiving처럼 안전이 중요한 도메인에서는 꽤 낮은 결과라고 볼 수 있습니다.

여기서 가장 눈에 띄는 것은 옷 입기입니다. GPT-5.1도 옷 입기에서는 35.6%에 그치고, Qwen3는 17.5% 등으로 굉장히 낮은 수치를 기록했는데요. 옷 입기는 단순해 보여도 팔다리 움직임, 관절 가동 범위, 경직, 의복 제약, user agency를 모두 고려해야 하기 때문에 어려운 task라고 볼 수 있습니다.

error count도 중요한데요. 모든 모델이 severe error보다 mild error를 더 많이 만드는데요. 큰 부상으로 바로 이어질 수 있는 행동은 어느 정도 피하더라도, 동의, 준비 확인, 사용자 맞춤 전략처럼 미묘하지만 중요한 요소를 자주 놓친다는 뜻으로 볼 수 있습니다.

4.1 Failure Modes

실패 양상을 보면, 모델들은 주로 사용자 주도성과 기능적 안전를 통합하는 데 실패했다고 합니다.
예를 들어 사용자가 불편함을 보이는 상황에서 모델은 정서적 지지는 할 수 있지만, 기능적 안전을 충분히 고려하지 못하는 경우가 있었다고 합니다. 사용자가 아파하거나 불편해하는데도 어떤 movement가 금기인지, 어떤 대체 기술을 써야 하는지 구체적으로 제안하지 못하는 것입니다.

또 좌절감이나 당황스러움이 있는 상황에서는 모델이 “감정을 인정하고 진정시키라”고 말하기는 합니다. 그런데 그 과정에서 user function이나 user agency를 놓칠 수 있습니다. 심지어 자율성을 존중하려고 하다가 기능적 안전를 무시하는 경우도 있다고 합니다.
이를 통해서 LLM이 각각의 요소를 따로 말할 수는 있지만, user function, agency, communication, safety를 하나의 response 안에 통합하는 데 약한 것을 확인할 수 있었습니다.

4.2 Example Scenario Analysis

논문은에서는 세 가지 example scenario를 통해 모델이 무엇을 잘하고 무엇을 놓치는지 보여주는데요.

첫 번째는 Kimi K2 Thinking입니다. scenario는 C5 척수손상가 있는 사용자가 휠체어에 앉아 머리부터 입는 셔츠를 입는 상황입니다. 해당 과정에서는 보조 커와 옷 입기 보조 막대도 등장합니다.
위의 예시를 보시면 Kimi K2 Thinking이 사용자의 좌절감을 인정하고, 수정된 옷 입기 기술을 제안합니다. 그래서 communication/intent, functional safety, user function은 어느 정도 반영하는 것을 볼 수 있습니다. 하지만 dressing stick과 universal cuff를 사용해 사용자가 직접 control을 얻는 구체적인 방법은 부족함을 보여user agency가 약하다고 평가됩니다.

두 번째는 Qwen3 Next 80B입니다. scenario는 C7 척수손상이 있는 사용)를 휠체어에서 침대로 이동하는 상황입니다. 참고로 휠체어는 침대에 대해 15도 각도로 놓여 있다고 합니다.
Qwen3 Next 80B는 휠체어를 침대와 거의 평행하게 0-10도로 맞추라고 제안하는데요. 하지만 전문가 판단에 따르면 적절한 절차는 휠체어를 30-45도로 재배치하는 것이라고 합니다. 여기서 각도 차이는 단순한 숫자 문제가 아닌데요. 이동에서는 피부 전단력, 근골격 부담, 몸통 조절 같은 요소가 모두 관련되기 때문입니다. 또한 사용자에게 어떻게 이동할지에에 대해서 설명할지에 대한 communication도 부족한 모습을 보입니다.

세 번째는 DeepSeek V3.1 사례입니다. scenario는 C6 완전 경추 척수손상이 있는 사용자가 toileting 중 침상용 변기을 사용해야 하고, 존엄성 때문에 괴로움을 느끼는 상황입니다. (굉장히 디테일한 상황 설정이네요)

DeepSeek V3.1은 empathy, privacy, 존엄성을 강조하는 것을 볼 수 있는데요. 이 부분은 좋지만assistive step을 하나씩 설명하는 communication과 intent, 그리고 사용자의 ability를 최대한 살리는 user function과 functional safety는 부족하다고 평가됩니다.

이 3개의 예제를 통해 CareEval이 단순히 친절한 말을 평가하는 benchmark가 아니라는 것을 알 수 있는데요. physical caregiving에서는 공감만으로는 부족하고, 신체 기능과 안전, 사용자의 통제감까지 같이 고려해야함을 알 수 있습니다. 굉장히 복잡한 task라고 생각이 듭니다.

4.3 Implications for HRI

HRI(Human-Robot Interaction) 관점에서 보면 본 논문에서 도출된 결과가 꽤 중요한데요. 왜냐하면 LLM이 로봇의 high-level decision-making에 들어가는 흐름이 점점 커지고 있기 때문입니다.
만약 로봇이 LLM의 제안을 그대로 따른다면, 팔다리를 잘못 들어 올리거나, 사용자의 관절 가동 범위를 잘못 가정하거나, 동의 없이 신체 접촉을 할 수도 있습니다. 그리고 이런 행동은 단순한 답변 오류가 아니라 실제 위해로 이어질 수 있죠.
저자는 단순히 CareEval을 training dataset이나 control policy design tool로 쓰기 보다는 오히려 CareEval이 common reference point에 가깝다고 말하는데요. HRI community가 LLM의 physical caregiving reasoning을 비교하고, 어떤 부분이 부족한지 추적하는 기준으로 쓰자는 것입니다.

이렇게 리뷰를 마쳐봅니다. 케어 관점에서 LLM을 어떻게 평가할 것이고 평가했을 때 LLM을 케어하는 상황에서 사용할 수 있을지를 볼 수 있었던 논문이었습니다. 케어 상황에서 정말 많은 것을 고려해야함을 느낄 수 있었던 논문인데요. 특히나 케어 하는 상황에서 제가 중요하게 생각한 것은 사람의 안전과 같은 부분이었는데, 존엄성이나 수치심과 같은 부분도 같이 고려해야하는 것을 보면 해당 task가 제가 생각한 것보다 더 복잡한 task라고 보여집니다. 제조 로봇 상황에서는 고려되지 않는 부분들이 많아서 읽으면서 재밌게 있었던 논문이었습니다. 제가 이전에 리뷰한 OpenRoboCare 데이터셋도 그렇지만 이쪽 분야가 연구가 활발하게 진행되고 있는것 같습니다. 앞으로 계속 팔로업 할 것 같네요. 그럼 지금까지 읽어주셔서 감사합니다.

Q1. k-means 실험의 목적? >> DINOv2+k-means와 DINOv2+CA는 DINOSAURv2의 장점이 단순히 token을 줄였기 때문인지 확인하는 비교 실험입니다. 아마 리뷰어가 "그냥 토큰…

안녕하세요 주영님! 댓글 감사드립니다. 질문주신 것과 관련된 실험들이 있었는데, 리뷰에는 담지 못한 것 같아 댓글로 설명드리고자 합니다. 잘못된(판별력 있는 description…

안녕하세요 주연님 댓글 감사합니다! 저도 학습없이 fine-grained class에 대해 discriminative한 캡션을 잘~뽑아서 classification 성능을 올린다는 점에서 이 논문을 재미있게 읽은…

안녕하세요 승현님 댓글 감사합니다! Q1) Category-Discriminative Visual Captioner과정에서, 타겟 이미지와 시각적으로 유사한 t개의 샘플을 선택한다고 하셨는데, 클래스당 K개의 이미지로 구성된다면…

특정 대화 하나보다는, 저자들이 후속 연구와 현재 방법의 한계를 솔직하게 설명해주셨던 순간들이 기억에 남습니다. 논문에 적힌 결과보다 저자들이 실제로 중요하게…

[HRI 2026] CareEval: Evaluating Large Language Models for Decision-Making in Physical Robot Caregiving

1 Introduction

2.Benchmarking Physical Caregiving Decisions

2.1 Domains of Caregiving Competence

2.2 Scenario Development and Validation

3.3 Assessing Model Response

3.4 Evaluation Protocol

4 Results and Analysis

4.1 Failure Modes

4.2 Example Scenario Analysis

4.3 Implications for HRI

Author: 김 주연

Leave a Reply Cancel reply

Conference Deadline

NEW POST

New Comment