안녕하세요. 이번에도 로봇 작업 관점에서의 hallucination 및 작업 모호성 문제 해결을 위한 uncertainty 추정 관련 연구를 들고 왔습니다. 사실 NIPS 에 실린 논문이라 기대를 많이 하면서 앞으로 저의 연구에 어떻게 하면 살을 붙이게 만들 수 있을까 고민하며 읽었던 논문인데 다 읽고 나니 NIPS 치고 방법론적으론 아쉬웠고, 새로운 데이터와 평가지표를 만들었단 점에선 주워갈게 있긴 했다는 생각이 들었던 논문이었습니다. 개인적으론 본 논문에서 baseline으로 삼았던 KnowNo[CoRL 2023 Oral](태주님 리뷰) 자체가 참신하고 임팩트 있었던지라 관심있으신 분들은 해당 논문 먼저 가볍게 접하시고 리뷰 읽어보시면 이해가 쉬우실 것 같습니다. 리뷰 시작하겠습니다.
Introduction
LLM output의 신뢰성은 다운스트림 로봇 태스크에서 직접적인 영향을 끼칠 수 있습니다. 즉 LLM Hallucination 현상으로 인해, 모델이 상식에 어긋나거나, 로봇이 실행할 수 없거나, 환경 제약 조건과 호환되지 않는 계획을 생성하게 합니다.

저자들의 프로젝트 페이지에 있던 다음의 동영상으로 예를 들면,
사람이 주방에서 피자를 전자렌지나 오븐에 굽도록 로봇에게 요청했는데, 로봇의 LLM agent는 플라스틱 트레이가 녹을 위험을 고려하지 않고 플라스틱 트레이를 사용하기로 결정할 수 있습니다. 다시 말하면 사용자의 모호한 명령이 LLM의 추론 및 계획에 hallucination과 uncertainty를 유발할 수 있게 되는 것입니다. 그렇게 되면 사용자에게 되물어보는 추가적인 커뮤니케이션이 불가피하게 더 필요해지게 되죠.
여기서 저자들은 인간의 자기성찰적 추론 능력에 관해 언급하는데, 인간이 자신의 내적 가치와 능력에 대한 지식을 스스로 평가하는 것처럼 LLM이 계획을 생성할 때, 그것에 내재된 불확실성을 더 잘 평가하기 위해 자기성찰적 추론 능력을 활용해보는 게 어떤가?의 관점에서 본 방법론의 motivation을 얻은 것 같습니다.
그래서 저자들은 LLM을 agent로써 사용하되, human-feedback을 최소화하는 방향을 지향하면서, 인간스러운 자기성찰추론 예제를 생성해서 prompting하는 knowledge-base 구축 방법론을 제안합니다. 해당 인간중심 자기성찰추론 지식으로부터 prompting하여 더 신뢰할 수 있고 해석가능한 계획을 세우게끔 힌트를 주는 건데, 어떻게 보면 few-shot prompting의 예제를 retrieval 기반의 검색으로 자기성찰적인 추론예제를 가져와서 좀 더 고도화한 것이라고 보면 될 것 같습니다.
거기다가 추가로 이전의 conformal prediction이라고 하는 통계학적 uncertainty score 추정 방법론과 결합시킨 자기성찰적 계획 방법론이 LLM의 불확실성을 더 개선할 수 있음을 실험했습니다.
저자들의 주요 contribution은 다음과 같습니다.
- retrieval-augmented planning + conformal prediction 통합하여 LLM uncertainty 문제를 개선하고, 통계적인 보장을 유지하면서 사용자 쿼리는 최소화할 수 있는 최초의 연구.
- LLM이 사람 중심의 안전 준수 계획에 대한 사후 rationalization으로 인간이 조정한 introspective 추론 예제를 생성하도록 안내하는 weakly supervised 되는 오프라인 knowledge base 새롭게 구축.
- Safe Mobile Manipulation Benchmark 제안. 기존 Mobile manipulation 데이터셋에 안전이 중요한 시나리오를 추가하고, planner의 안정성 준수 여부를 평가하기 위한 새로운 Mertic 제안.
2. Introspective Planning
Introspective planning이라는 것의 근본적인 목표는 LLM이 여러 개의 planning 후보군에 대해 task를 성공적으로 또 안전하게 완수할 수 있는가의 관점에서 고려하여 자체적으로 불확실성을 추론하도록 유도하는 것입니다.
<Problem Formulation>
우선 본 논문의 저자들은 이 로봇 action 관점의 uncertainty 추정 연구 중 한 획을 그은 KnowNo 연구에서 영감을 받아, 그와 유사하게 LLM-based planning을 Multiple-choice Question Answering(MCQA)으로 간주하여 문제를 해결하고자 합니다.
작업 상태 d_i와 관찰 o_i가 주어지면 LLM plannner는 먼저 plan에 대한 후보 집합 C_i를 생성하고, 각 plan에는 Y := \{A, B, C, ...\} 같이 고유한 문자 라벨이 할당됩니다. 그런 다음 planner는 unknown true user intent z_i와 일치시키는 것을 목표로 \hat{y_i} \in Y를 예측합니다. 예를 들어, 주어진 작업 d_i가 “Bring me that soda”이고, 관찰 o_i로 확인한 정보로써 banana, a pack of chips, a can of Coke 가 카운터 위에 놓여 있다고 가정한다면, LLM planner는 먼저 각 항목을 사용자에게 가져다주는 세 가지 옵션 C_i를 생성하고, Coke에 해당하는 레이블 \hat{y_i}를 예측하는 것입니다.
<Knowledge Base Construction>
N개의 인스턴스로 구성된 training set U = \{(x_i, G_i)\}{i=1}^N을 고려합니다. 각 인스턴스에 대해, x_i := (d_i, o_i)는 작업 d_i와 관찰 o_i 쌍이고, G_i는 task에 대한 구체적 정보와 관찰을 만족하는 모든 유효 옵션 set입니다.
지식 베이스를 구축하기 위해서, LLM에 쿼리하고 알파벳 라벨(Y 집합)이 있는 후보 plan set C_i를 생성하는데, 이 때 주어진 작업 상태 d_i, 관찰 o_i와 함께 hand-crafted few-shot example을 조건으로 하여 prompting합니다. 그렇게 LLM prompting으로 gt 유효 옵션 G_i가 주어졌을 때 이유 k_i를 생성합니다. 구체적으로, few-shot example에 의한 in-context learning으로 LLM이 gt에 따라 특정 옵션이 유효한 이유에 대한 설명을 생성하게 되는 것입니다. 그 gt에 해당하는 작업을 프롬프트에 바로 통합하면 LLM이 실제 옵션과 더 밀접하게 일치하는 추론을 생성할 수 있습니다. 추론 단계에서 검색을 용이하게 하기 위해 각 작업 intruction d_i의 텍스트 임베딩을 knowledge key로 계산하고 knowledge base dictionary K에 저장합니다.
해당 절차는 아래 알고리즘 1에 요약되어 있습니다.

<Planning with Knowledge Retrieval>
추론 시 planner는 LLM의 추론을 돕기 위해 Knowledge Base K에서 가장 연관성이 높은 추론 예제를 선택합니다. test 인스턴스 x{test} = (d_{test}, o_{test})가 주어지면 d_{test}의 텍스트 임베딩과K의 모든 키 사이의 cos sim을 계산합니다.

위 그림 1에서와 같이 프롬프트로 가장 유사한 임베딩에 해당하는 가장 연관성이 높은 지식을 검색하고 LLM의 in-context learning 기능을 활용하여 가능한 계획을 생성하고 실행 가능성에 대해 추론합니다.
생성된 추론으로 원하는 로봇 계획 \hat{y}{test}를 선택하기 위해 다음과 같은 두 가지 예측 방식을 사용가능한데, (1) Direct Prediction 방식, (2) Conformal Prediction 방식이 있습니다. (1) Direct Prediction: LLM에게 가능한 모든 계획과 설명과 함께 최적의 옵션 \hat{y}{test}를 출력하도록 요청하는 방식. (2) Conformal Prediction: \hat{y}{test}를 직접 예측하는 대신 지식 검색 프로세스 및 생성된 추론에 의해 구성된 프롬프트가 주어지면 각 라벨 y_i \in Y에 대해 LLM의 신뢰도 \hat{f}(y_i|x{test}, C_{test}, k_{test})를 쿼리하여 유효한 후보 계획 집합 \hat{G}{test} \subseteq C{test}를 구성합니다. \hat{G}_{test}에 여러 유효한 옵션이 포함되어 있는 경우 로봇은 사람에게 도움을 요청합니다. 정리하자면, 후보 옵션들에 대해 정량적 신뢰도를 부여해, 주어진 신뢰 수준 (예: 85%)에서 실제 정답을 포함하는 후보 집합을 추정하는 통계적 방법입니다.
3. Introspective Conformal Prediction
로봇이 사람과 함께 작업할 때 가장 중요한 것은 사용자의 의도를 제대로 이해하는 것입니다. 만약 로봇이 사용자의 의도 파악을 못하고 그 속에 담긴 모호함을 감지해내지 못해 섣불리 행동을 실행하면, 사용자의 의도와는 전혀 다른 결과가 나오거나 동작이 위험해질 수도 있죠. 그래서 사용자의 작업 지시가 모호성이 있는 경우에 추가 지시를 요청하는 것이 중요합니다.
그런 관점에서 LLM에 few-shot in-context learning을 통해 prompting을 잘 해놓더라도, 다음 행동을 예측토록 직접적으로 쿼리하는 것은, 사용자의 의도와는 다르게 받아들여지는 경우도 생겨서 LLM이 자신의 결정을 과신하고 hallucination을 발생시킬 수 있습니다.
반면
conformal prediction 기법은 예측에 대한 정량화 가능한 신뢰도 정도를 뽑아내어 LLM의 response에 대한 확신을 수치적으로 조금 더 명확하게 이해할 수 있도록 한다는 장점이 있습니다. 다만 이것도 완변하지만은 않은게 결국 LLM 자체의 추론 능력이 약하면 높은 성공률을 유지하기 위해 불필요하게 너무 다양한 범위의 옵션을 뽑아내야 할수도 있기 때문입니다. 그렇게 되면 오히려 관련없거나 위험한 planning이 또 생길 수도 있겠죠.
그래서 저자들은 conformal prediction을 좀 더 보완하면서 introspective planning을 보강하여 작업 성공에 대한 통계적인 보장의 범위를 좁히고자 했습니다. 그 둘의 결합 방식은 아래 그림 2 를 보시면 되겠습니다.

그림의 예시로 씬에 플라스틱 쟁반, 금속 쟁반, 유리 쟁반, 그리고 오븐이 놓여 있고, 작업은 쿠키를 굽는 것이라고 하면,
앞서 언급한 Robot that ask for help 에서의 MCQA방식처럼 planning 후보를 5지선다 객관식으로 QA화시킵니다.(보통 GPT같은 black-box LLM의 경우, logprob 옵션을 활용해서 next-token 확률정보를 최대 5개까지 얻을 수 있기 때문에 이전 연구에서 써먹어왔던 트릭) 그런 다음 LLM이 작업에 대해 내린 introspective reasoning 생성은 “플라스틱 쟁반은 오븐 내 직접 가열에 부적합하지만 유리 또는 금속 쟁반 사용은 괜찮다.”이고,
Next-token Likelihood 점수 예측으로 나온 (black-box LLM의 경우 logprob활용, open-source LLM의 경우 보통 모델의 출력 logits에서 softmax를 취해 확률 계산하는 것으로 알고 있습니다.) B(금속 쟁반): 0.58, A(유리 쟁반): 0.32 등에서 사전에 수집된 보정 데이터셋(calibration dataset) 기반으로 후보 행동들에 대한 ‘비적합도(non-conformity) 점수’ 가 계산되는데, 이것이 각 후보 옵션들에 대한 정량적 신뢰도를 부여하는 셈이 되고, 특정 threshold q^(85%; 이건 경험적으로 구해졌습니다.)로부터 1 – q^ = 0.15 이상인 행동만 후보 집합에 포함하는 방식에 의해 LLM Next-token Likelihood 점수를 thresholding하고, 그 중 정답이 될만한 예측 옵션 세트가 2개(A와 B)로, 1보다 커서 사용자에게 추가 질문 요청하는 방식이 진행될 수 있습니다.
Conformal Calibration
위에선 너무 휘리릭 지나갔어서 캘리브레이션 데이터셋 Z가 어떻게 구성되는 지 좀 살펴보겠습니다.

이 데이터셋 Z는 각각 작업 x_i, 계획 C_i, 이유 k_i, 사용자 의도 z_i를 포함하는 튜플로 구성되며, 이들은 어떤 알려지지 않은 분포에서 독립적으로 추출됩니다. Conformal prediction의 목표는 새로운 샘플에 대한 예측 집합

를 생성하는 것이며, 이를 통해 실제 사용자 의도 z_\text{test}가 포함될 가능성을 높입니다. 구체적으로 conformal prediction은 다음의 확률값을 만족하는 걸 목표로 합니다.

여기서 1−ϵ은 원하는 신뢰 수준입니다. 캘리브레이션 과정에서, 저자들은 다음과 같이 비순응 점수(nonconformity score)를 계산합니다.

여기서 \hat{f}는 LLM으로부터 얻은 confidence score 함수입니다.
임계 임계값 \hat{q}는 이 점수들의

위치에 해당하는 경험적 분위수로 정의됩니다. 다음과 같이 표현됩니다.

Conformal Prediction
캘리브레이션된 임계값 \hat{q}를 이용하여 테스트 인스턴스 x_\text{test}에 대한 예측 집합을 구성합니다. 이때 confidence level이 1-\hat{q} 이상인 옵션 y를 모두 포함합니다.

이 방식은 수학적으로 증명된 방식인데, 예측 집합의 포괄성을 보장한다고 합니다.
앞선 식

의 한계 보장은 캘리브레이션 집합과 테스트 집합에 모두 의존하기 때문에, 새로운 테스트 인스턴스 z_\text{test}마다 동일한 수준의 통계적 보장을 유지하려면 이상적으로 새로운 캘리브레이션 집합을 샘플링해야 합니다. 사실 이게 가장 큰 단점일텐데,,, 그렇게 되면 그걸 구성하는 cost가 정말 많이 들겠죠. 저자들 말로는 대신 N을 충분히 크게 설정하면, 보장 수준의 분포를 분석해 그 변동성을 제어할 수 있다고 합니다. 보장의 분포는 다음과 같이 표현됩니다.

여기서

는 파라미터 N+1−l 과 l을 가진 베타 분포의 δ 분위수(역누적분포함수)입니다.
Sadilek (2019)[Toolformer]의 연구에 따르면 conformal prediction은 테스트 집합 크기를 최소화하면서 성공률을 높이는 데 가장 적은 인간 개입을 요구하는 것으로 나타났습니다.
이전 연구 KnowNo는 계획(planning)에 conformal prediction을 활용한 유사한 프레임워크를 제안했습니다. 본 연구에서는 이를 한층 개선하여 introspective한 계획 이유 k_i를 도입해 likelihood 함수의 효과를 높입니다. 구체적으로는 비순응 점수의 분포를 더 작은 값들에 집중시키도록 최적화해 프레임워크의 신뢰성을 높이고 보수성을 낮췄습니다. 이로써 성능과 신뢰성이 동시에 향상됩니다. 아래 알고리즘 2는 저자들의 introspective conformal prediction 에 대한 수도 알고리즘입니다.

4 Evaluation
4.1 Evaluation Method
[Asking for help is not enough]
저자들은 이전 연구인 KnowNo 가 충분하지 않았다며 좀 쎄게 워딩을 하면서 평가 지표 관련 설명을 시작합니다.(다 읽고 나니 드는 생각인데, 사실 제가 생각했을 땐 method 쪽이 KnowNo 방식을 거의 다 차용하고 거기서 introspective reasoning 관련 살만 붙여 발전시킨 느낌이라 썩 참신하지 않았어서 평가지표랑 실험 쪽에 다양성을 둬서 쇼부 보려고 했던 것 같습니다.) 이전엔 주로 성공률(success rate)과 도움 요청률(help rate)을 성능 지표로 사용했지만, 이러한 지표만으로는 로봇의 플래너가 얼마나 잘 작동하는지를 충분히 설명하기 어렵다고 합니다. 예를 들어 사용자가 “소다를 가져와”라고 지시했을 때, 로봇이 Coke, Sprite, Apple 중에서 질문을 하긴 하지만 엉뚱한 질문을 한다면, 성공률도 도움 요청률도 이러한 문제를 반영하지 못합니다. 성공률은 단순히 예측 집합에 사용자의 의도가 포함되었는지만 보고, 도움 요청률은 낮다고 해서 반드시 좋은 성능을 의미하지는 않습니다. 오히려 모호할 때는 적극적으로 도움을 요청해야 좋은 플래너입니다.
이 문제를 해결하기 위해, 저자들은 오류를 다음 세 가지 유형으로 새로 구분했습니다:
- 로봇이 불확실하지만 작업은 명확한 경우
- 로봇이 확신을 가졌지만 잘못된 경우
- 로봇이 불확실하고 작업도 모호한데, 잘못된 질문을 하는 경우
이를 바탕으로 기존 지표 외에 저자들은 새로운 지표들을 제안했습니다.
<Metrics>
기존의 성공률과 도움 요청률 외에 추가 지표를 통해 플래너의 성능을 보다 종합적으로 평가합니다.
- Success Rate (SR): 예측된 행동이 사용자 의도와 일치한 비율
- Help Rate (HR): 예측 집합에 여러 옵션이 포함돼 있어 로봇이 추가 지시를 요구하는 비율
- Exact Set Rate (ESR): 예측 집합이 모든 유효한 행동과 정확히 일치한 비율 –> 3번오류 잘 포착.
- Non-compliant Contamination Rate (NCR): 예측 집합이 지시에 어긋난 옵션을 포함할 비율 –> 3번오류 잘 포착.
- Unsafe Contamination Rate (UCR): 예측 집합에 잠재적으로 안전하지 않은 옵션이 포함될 비율 –> 안전 관련
- Overask Rate: 작업이 명확함에도 로봇이 불확실해 하는 경우의 비율 –> 1번오류 잘 포착.
- Overstep Rate: 로봇이 과신하여 잘못된 행동을 선택한 비율 –> 2번오류 잘 포착.
- Unsafe Rate: 로봇이 확신을 가지며 안전하지 않은 행동을 선택한 비율 –> 안전 관련
<Baselines>
제안한 introspective planning 기법을 다양한 프롬프트 기반 방법들과 비교하는데, 대표적인 것은 Prompt Set(기본 in-context learning으로, KnowNo방식), Prompt Set+CoT(KnowNo에 CoT reasoning 추가), Retrieval-Q-CoT(Retrieval 방식의 Auto-CoT), Auto-CoT(클러스터링 방식으로 다양한 시나리오를 반영한 Auto-CoT)입니다. 특히 KnowNo와 비교하여 introspective planning이 conformal prediction을 얼마나 개선하는지도 평가했습니다. 또한 Retrieval-Q-CoT에 conformal calibration을 적용한 방식도 추가 비교군으로 사용했습니다. 캘리브레이션에는 δ=0.01을 적용해 KnowNo와 일관성을 맞췄고, 경험적 커버리지가 조건부 커버리지보다 1−δ=0.99 이상이 되도록 했습니다.
4.2 Datasets
데이터셋 구성이 다채로웠던 것 같습니다.
Mobile Manipulation:
원래의 캘리브레이션 데이터셋은 총 400개의 예제로 구성되어 있으며, 테스트 셋은 200개의 예제를 포함합니다. 또한 두 가지 종류의 분포 이동(covariate shift, concept shift)에 대한 강건성을 평가하기 위해 추가로 세 가지 데이터셋을 사용했습니다. 여기에는 200개의 모호하지 않은 지시가 포함된 데이터셋, 200개의 모호한 지시가 포함된 데이터셋, 그리고 100개의 새로운 장면과 지시로 구성된 데이터셋이 있는데, 이 원본 데이터셋은 KnowNo에서 사용된 것과 동일한 분포를 따르며, 단일 라벨, 다중 라벨, 공간적 모호성, 안전성, Winograd 문제(특정 문장에서 등장하는 대명사가 지칭하는 게 뭔지 판단하는 문제) 등 다양한 유형의 작업을 포함합니다.
Safe Mobile Manipulation:
KnowNo의 모바일 매니퓰레이션 데이터셋을 안전성에 초점을 맞추어 조금 더 확장했다고 합니다. 캘리브레이션에는 400개, 테스트에는 200개의 예제를 사용했으며, 추가로 200개의 안전과 관련된 시나리오를 구성했다고 합니다. 이는 다음 세 가지 유형으로 분류됩니다.
(1) 안전을 고려할 때 명확해지는 모호한 지시 예: 전자레인지용 금속 그릇과 플라스틱 그릇 중 선택
(2) 안전을 고려한 모호한 지시 예: 전자레인지에 적합한 스테인리스, 플라스틱, 도자기 중 적절한 재질 선택
(3) 명확하지만 안전하지 않은 지시 예: ‘금속 그릇을 전자레인지에 넣어라’와 같은 지시
Tabletop Rearrangement:
이 작업은 테이블 위에서 색깔이 있는 블록과 그릇을 특정 지시에 따라 옮기는 것입니다. 지시 내용으론 의도적으로 속성(예: 대체 이름이나 색상), 수량(모호한 수량 표현), 공간 관계(방향과 위치에 대한 일반적인 표현)에서의 모호성이 포함되도록 설계되었습니다. 이 데이터셋에서도 400개의 예제를 캘리브레이션에 사용하고, 추가로 200개의 예제를 테스트에 사용했습니다.
5. Results
<Implementation details>
모든 실험은 OpenAI의 GPT-3.5(text-davinci-003)와 GPT-4 Turbo(gpt-4-1106-preview)를 사용했고, 본문에 리포팅된 실험결과는 GPT-4 Turbo 결과였습니다. 사용자 명령 지시의 인코딩에는 Sentence-BERT를 활용해 코사인 유사도를 기준으로 상위 m=3개의 텍스트 임베딩을 선택했습니다. knowledge base 와 캘리브레이션 셋은 각각 400개의 작업을 포함합니다.

부록 C의 그림 8에서 knowledge base의 크기에 따른 성능 변화를 심층 분석한 내용도 있었는데, 10, 50, 100, 200 크기 실험에서 약 100개의 예제만으로도 만족스러운 성능이 나옴을 보였습니다.

prompt 비용도 리포팅했는데, 한 실험 단위인지, 한 task 단위인지에 대한 자세한 설명은 없었지만 저 정도씩 cost가 든다고 합니다…
<Trade-off between direct and conformal prediction>
실험 결과에 따르면, introspective planning과 direct prediction의 조합은 모든 다른 베이스라인보다 성능이 뛰어났습니다. conformal prediction과 결합한 introspective planning은 다른 conformal 방법보다도 뛰어났습니다. 다만, direct prediction과 비교했을 때는 눈에 띄는 성능 차이가 있었는데요. 이는 성능과 신중함(보수적인 성향을 보임) 간의 trade-off로 보인다고 저자들은 설명합니다.

그런 관점에서 눈여겨 볼 점은 Conformal prediction을 사용하지 않은 Prompt Set 방법은 확실히 더 정확한 예측 집합을 생성하지만, ESR이 19.5% 증가했다는 점입니다. Chain of Thought(CoT)를 결합하면 성능이 추가로 향상되지만, Retrieval-Q-CoT와 Auto-CoT는 단순한 prompting 방식 대비 유의미한 개선을 보이지 못했습니다. 이는 학습 과정에서 사람이 개입하지 않은 상태로 잘못된 지식을 자주 생성하기 때문입니다. 특히 Auto-CoT는 낮은 OAR에도 불구하고 높은 Over-Step Rate을 기록하며 과신(overconfident)하는 경향이 있었습니다.

그림 4를 기준으로 introspective planning과 두 가지 conformal prediction 기반 베이스라인을 비교했습니다. 4a는 conformal prediction이 경험적 성공률을 목표 성공률과 정렬시킬 수 있었음을 보입니다. 특히 4d의 경우는 본 논문의 방법이 전체 목표 성공률 범위에서 consistently 높은 ESR을 기록하면서 KnowNo와 Retrieval-Q-CoT를 능가함을 보여줍니다.
4e 그래프를 기반으로 저자들이 분석한 결과에 따르면, Retrieval-Q-CoT와 KnowNo는 더 큰 예측 집합을 생성해 목표 성공률을 맞추려 하기 때문에 보수적이며, 이로 인해 불필요한 옵션이 자주 포함되어 NCR이 높아진 것이라고 설명합니다. 반면 4g를 보면, introspective planning은 모호성에 대해 더 나은 추론을 하는데, 특히 명확한 시나리오에서 Retrieval-Q-CoT와 KnowNo는 introspective planning보다 훨씬 자주 과도한 질문을 하는 경향을 보였다고 합니다. 또 모호한 작업에서는 Retrieval-Q-CoT가 초기에는 과신을 덜 하지만, 목표 성공률이 높아질수록 과신 비율이 크게 줄지 않습니다. 반대로 4h를 보면 저자들의 방법론은 낮은 over-ask를 유지하면서도 overstep을 효과적으로 줄이는 경향성을 보여줬습니다. 또한 로봇 플래닝에서 unsafe한 행동에 대한 추론을 개선하는지 평가했는데, 4f에 따르면 저자들의 방법론이 목표 성공률 전체 범위에서 가장 낮은 UCR을 유지해 unsafe한 옵션에 대해 효과적으로 대응함을 입증했습니다. 마지막으로, 4i를 보면 conformal prediction 관점에서 introspective planning은 두 베이스라인보다 더 낮은 임계값 \hat{q}를 가지며, 이는 통계적 보장에 대해 더 타이트한 경계를 달성함을 보이는 것을 확인할 수 있습니다.
마지막으로 Safe Mobile Manipulation 상황에 대해 baseline인 KnowNo와 비교한 정성적 결과입니다. 노란색이 저자들의 방법론인 IntroPlan이고, 초록색이 KnowNo입니다.

6. Conclusion
결론을 좀 정리하자면, 언어 기반 에이전트가 의사결정의 불확실성을 작업의 모호성과 안전성 관점에서 로봇의 LLM agent가 스스로 점검하도록 기존 KnowNo라는 Conformal Prediction 기반 연구에서 retrieval reasoning 을 결합하여 좀 더 발전시킨 Introspective Planning 방법론을 제안했습니다. 여러 데이터셋과 여러 지표를 새로 구성하여 저자들은 다양한 실험을 진행했는데, 결론적으로는 introspective reasoning과 conformal prediction을 둘 다 결합한 저자들의 방식이, 작업성공 성능과 신중함 사이의 trade-off가 가장 잘 절충된 방식이라고 어필하는 것으로 이해했습니다.
하지만 한계점으론 trade-off가 있음에도 불구하고 사실 덜 신중한 direct prediction에 비해 성능 격차가 너무 많이 차이 난다는 점과, 5지선다의 선택지의 경우 single-label conformal prediction에 기반하여 너무 상호배타적이고 독립적이고 이상적인 설계라는 점이 있습니다. 저자들의 언급으로는 single-label을 multi-label로 개선시키면 모호한 작업을 좀 더 비배타적인 선택지로 접근할 수 있겠으나 해당 방식도 너무 지나치게 보수적인 결과를 보여 future work로 해당 방식에 대한 성능을 개선하여 single-label 대비 효과적인 방법으로 만드는 것도 중요하다고 본다고 합니다.
재찬님 좋은 리뷰 감사합니다.
task에 대한 유효 옵션 set G_i는 사람이 수동으로 생성하는 것인가요?
또한, 데이터셋 Z에 대한 설명이잘 이해가 되지 않아서 질문드립니다. 데이터셋 Z는 해당 논문에서 제안하는 것 인가요? 그렇다면 x_i, C_i, k_i, z_i가 알려지지 않은 분포에서 독립적으로 추출된다고 하셨는데, 그렇다면 실제로 어떻게 데이터를 구축할 수 있는 지 잘 이해가 되지 않습니다. LLM으로 생성하기 때문에 알려지지 않은 분포에서 추출된다고 표현하는 것일까요? 아니면 주어진 집합에서 랜덤하게 선정한 것일까요? 이 데이터에 대해서는 검증이 된 것일까요?
마지막으로, 해당 논문은 안전에 대하여 uncertainty로 접근하는 방식으로 이해하였는데, 재찬님은 이후 이를 더 확장하여 안전 뿐만 아니라 작업 수행 가능성 등으로 확장하고자 하시는 지 궁금합니다.
1. 네 맞습니다. hand-crafted few-shot example로 생성하여 gt로써 취급하고, 이를 in-context learning으로 prompting하여 rationale k_i 를 생성하는 방식으로, 유효한 옵션들인 gt에 따라, 그 특정 옵션이 유효한 이유에 대해 reasoning 한 내용을 생성하는 것입니다.
2. 그래서 데이터셋 Z가 뭐냐?
작업 지시(task description)와 관측(scene observation), 그것에 대해 LLM이 생성한 여러 후보 계획들(candidate plans), 또 그것에 대해 LLM이 생성한 introspective reasoning/rationale (후보 계획을 왜 선택하거나 배제하는지에 대한 설명), 결론적으로 실제 사용자 의도(true user intent) 또는 사람이 검증한 올바른 정답 행동(label) 이 Z의 구성인데,
쉽게 말하면 uncertainty를 통계적으로 잘 추정하기 위해 사용할 prompt들, 그리고 평가를 위해 사용할 구성이라고 생각하시면 될 것 같습니다.
이전 방법론인 KnowNo 에서도 그렇고 본 논문에서도 그렇고, 각자 본인들이 세팅하는 실험환경에 맞춰 사전정의된 이런 데이터셋을 구성하고, 이 calibration 데이터셋이란 게 있어야 conformal prediction을 수행할 수 있는데, 특히 본 논문은 KnowNo와 달리 Safe 관련 Benchmark도 구성하기에 직접 구축하는 것이 맞습니다.
3. 데이터 구축 시 분포랑 독립성 얘기가 뭐냐?
사실 Z가 독립적으로 추출된다는 분포에 대한 가정은 conformal prediction이라는 방법론의 통계학적 보증을 위해 필요하다는 설명을 해야하는데, 이전 방법론인 KnowNo의 내용이 좀 복잡했어서 제가 많은 내용을 생략해버린 것 같네요 죄송합니다. 예를 들자면 현실의 로봇 작업 환경에서는 Z 라는 calibration 데이터셋을 무한히 많이 뽑을 수 없고, 최대한 만들더라도 사람이 사전정의하여 설계한 작업과 그것에 대한 환경적 데이터 샘플링을 먼저하고, 그 다음 LLM의 도움을 받아 candidate plans과 rationales를 만들어내고 그 중 일부를 선별하는 작업으로 최종 Z가 만들어질텐데, 엄밀하게 말하면 그런 선별이나 제약조건없이 독립적인 내용으로 구성되는 Z라는 것을 자연스레 구성하는 건 현실에서는 불가능할 것입니다. 그럼에도 conformal prediction의 통계적 이론을 보장해내기 위해 그런 수학적 제약조건을 임의로 쎄게 건 것으로 이해하시면 될 것 같습니다. 제가 conclusion에 적은 것처럼, 해당 독립성에 대한 내용은 single-label conformal prediction에 대한 내용과 연결되는 내용과도 연결지어 생각해주시면 될 것 같습니다.
4. 본 논문은 안전에 대한 uncertainty 로 접근하는 식으로 기존 방법론에서 발전시켰는데, 이후 더 확장하여 작업 수행 가능성으로 확장할 생각이 있느냐?
사실 엄밀히 말하면, 작업 수행 가능성은 KnowNo 때부터 이미 conformal prediction 방식에 의해 LLM이 스스로 본인의 hallucination을 감지하고 human에게 “ask for help” 한다는 컨셉이 이미 있어왔습니다. 본 논문은 거기다가 safety 관점에서 더 생각한 것으로 이해해볼 수 있구요. 그래서 일단 저는 해당 방법론들의 흐름을 따라가는 정도로만 일단 생각하고 있고, 추가적인 task 확장에 대한 생각은 저 스스로 좀 다듬어지지 않아서 추후 생각이 정리되면 다른 리뷰를 통해 녹여내 보도록 하겠습니다.