안녕하세요. 이번 리뷰는 로보틱스 팀에 핏한 주제인 강화학습에 관한 내용으로 들고 왔습니다. 로봇 매니퓰레이터 작업을 비전 기반의 강화학습인 Q-attention이란 개념을 도입해 풀어나간 논문입니다. RLBench 기반이라 코드 실행도 용이할 것 같아 읽어보았습니다.

1. Introduction
로봇 매니퓰레이션 작업과 같이 Continuous-control을 다루는 강화학습 알고리즘들은 높은 잠재력을 지니고 있지만, 몇 가지 한계를 가지고 있습니다. 대표적으로 데이터 효율이 매우 낮고, sparse한 reward 환경에서 쉽게 실패하며, long-horizon 작업 수행에도 어려움을 겪습니다. Discrete-control과 Continuous-control 알고리즘 모두 일반적으로 사전 설계된(Shaped) rewards 신호를 제공하는 벤치마크 환경(주로 시뮬레이션 환경)에서 평가되는데[openAI Gym],[dm_control], 이는 실제 로봇 응용 환경에서 다양한 작업을 훈련할 때와는 현실적으로 잘 맞지 않습니다.
로봇 매니퓰레이션 작업들에서 sparse한 reward만 존재하는 이유는 다음과 같습니다. 먼저 매니퓰레이션 작업들은 보통 목표 달성 여부만 판단할 뿐, 중간 과정에 대한 세부적인 성공 여부를 판단하기 어렵습니다. 예를 들어 물체를 정확히 목표지점에 놓았을 때만 보상이 주어지고, 조금이라도 목표에서 벗어나면 전혀 보상을 받지 못합니다. 두번째로, 그에 따라서 다양한 중간 단계에서 진행 상황을 평가할만한 명확한 척도 설정이 어렵습니다. 중간 과정을 세부적으로 평가하려면 추가적인 센서나, 환경 등의 세밀한 정보가 요구될테지만, 실제 환경에서는 그런 조건을 갖추기가 쉽지 않죠. 세번째로, 대개 복잡한 움직임을 통해 여러 단계를 거쳐 목표를 달성합니다. 이를 long-horizon 작업이라고 볼 수 있겠는데, 초반의 잘못된 액션에 의해 나중 결과가 심히 크게 뒤틀리기 때문에 중간중간 어떤 행동이 잘못됐는지는 파악하기 어렵습니다. 결국 보상은 작업 끝에서만 나타나는 상황을 만들어지는 것이죠. 이러한 이유로 manipulation 작업은 sparse한 reward 환경에서 학습이 매우 까다롭고, 현실적인 로봇 시스템에 적용하기 위해서는 보다 정교한 접근법이 필요합니다.
이에 저자들은 인간이 물체를 조작할 때 조작 대상 근처에 시선을 집중한다는 논문에서 영감을 얻어, Attention-driven Robotic Manipulation(ARM) 을 제안합니다. ARM 알고리즘은 크게 3단계의 파이프라인을 통해 작동합니다. 먼저, 새롭게 제안한 Q-attention 모듈이 RGB 이미지와 포인트 클라우드 입력으로부터 유의미한 픽셀 위치를 추출합니다. 이 과정에서 이미지를 env로, 각 픽셀 위치를 action으로 취급합니다. 이렇게 얻은 픽셀 위치 정보를 바탕으로 RGB 및 포인트 클라우드 입력에서 필요한 부분만 crop하여 입력 크기를 축소한 뒤, 이를 next-best-pose를 예측하는 Continuous-control agent에 전달합니다. 이 에이전트는 새롭게 고안한 confidence-aware critic을 통해 학습되며, 최종적으로 6D pose를 출력합니다. 출력된 goal pose는 다시 control 알고리즘에 전달되어 연속적으로 모터 속도를 결정하는 데 사용됩니다.
앞서 언급했던 sparse한 reward 환경에서는 성공적인 action을 무작위로 발견해나가기 어렵고 보상이 거의 없으니 학습 초기부터 정체(stagnation)에 빠지기 쉽습니다. 그래서 본 연구의 알고리즘 역시 이미 성공한 행동 궤적인 demonstration을 통해 초기 탐색(exploration)을 개선한다고 합니다. 그러나 단순히 시연 데이터를 replay buffer에 직접 삽입하는 방식 대신, keyframe 탐색 전략을 도입하여 demonstration 궤적에서 의미 있는 핵심 프레임을 선택합니다. 이는 Q-attention 에이전트를 학습하는 데 매우 중요한데, 핵심 프레임이 Q-attention 모듈에 명시적인 supervision signal을 제공하여 학습 초기 단계에 중요한 영역을 선택하도록 유도하기 때문입니다. 이러한 과정이 없다면, next-best-pose 에이전트는 학습 초기 단계에 비효율적인 crop을 선택하여 시스템 성능이 저하될 수 있습니다. 또한 초기 상태에서 핵심 프레임으로의 전환만을 저장하는 것이 아니라, demo augmentation 방법을 활용하여 궤적 중간 지점들에서 핵심 프레임으로의 전환도 저장하여 리플레이 버퍼에서 초기 시연 데이터의 비율을 크게 증가시킵니다. 즉 정리하면, sparse reward 환경에서의 학습 정체 이슈를 해소하기 위해 기본적으로 demonstration을 초기 exploration에 활용하는 방식을 택하지만, 단순히 replay buffer에 때려박고 시작하는 게 아니라 그 중에 중요한 놈들만 골라서 효율성을 좀 고려하겠다가 되겠습니다.
ARM 알고리즘은 크게 3단계의 파이프라인을 통해 작동합니다. 먼저, 새롭게 제안한 Q-attention 모듈이 RGB 이미지와 포인트 클라우드 입력으로부터 유의미한 픽셀 위치를 추출합니다. 이 과정에서 이미지를 env로, 각 픽셀 위치를 action으로 취급합니다. 이렇게 얻은 픽셀 위치 정보를 바탕으로 RGB 및 포인트 클라우드 입력에서 필요한 부분만 crop하여 입력 크기를 축소한 뒤, 이를 next-best-pose를 예측하는 Continuous-control agent에 전달합니다. 이 에이전트는 새롭게 고안한 confidence-aware critic을 통해 학습되며, 최종적으로 6D pose를 출력합니다. 출력된 goal pose는 다시 control 알고리즘에 전달되어 연속적으로 모터 속도를 결정하는 데 사용됩니다.
본 논문의 주요 contribution은 다음과 같습니다.
- Q-attention: 기존 NLP 및 비전 분야에서 흔히 사용되는 on-policy hard attention 이나 soft attention 방식이 아닌, Q-learning을 통해 학습되는 “off-policy hard attention 메커니즘”을 최초로 제안하였습니다. 본 연구의 demo 데이터는 본질적으로 off-policy 데이터이기 때문에 기존의 hard attention 방식으로는 demo 기반 RL에 적용하기 어려웠는데, 저자들이 제안한 방식은 이 문제를 최초로 해결하였습니다.
- Confidence-aware Q function: 픽셀 단위로 Q값과 신뢰도 값을 함께 예측하여 액터-크리틱(actor-critic)의 학습 안정성을 개선하였습니다.
- Keyframe discovery 및 demo augmentation 방법: 두 가지 방법을 결합하여 강화학습 과정에서 시연 데이터의 활용 효율성을 극대화하였습니다.
2. Related Works
강화학습은 pushing, peg insertion, ball-in-cup, cloth manipulation, grasping 등 manipulation의 다양한 종류의 작업구성에서 널리 사용될 수 있습니다. 그러나 많은 연구가 진행되고 있음에도 불구하고, 시뮬레이션 기반의 기능들(예: reset to demonstrations, asymmetric actor-critic, reward shaping, auxiliary task 등) 없이 sparse reward 환경에서 다양하고 복잡한 조작 작업을 다룰 수 있는 일반화된 방법론은 아직 제시되지 않았습니다.
제안한 Q-attention과 관련된 연구로는 grasping, pushing, pick-and-place와 같은 작업에서 top-down 카메라 픽셀을 high-level actions으로 사용하는 방식들이 있습니다. 그러나 이러한 방법들이 stacking wine과 같은, 본 논문에서 제시하는 것과 같은 탑-다운 방식을 넘어서는 작업들로 확장 가능한지는 명확하지 않습니다. 이에 본 연구는 탑-다운 작업뿐만 아니라 다양한 작업으로 확장 가능한 완전한 6-DoF 조작 시스템을 제시합니다. 또한, 또 다른 관련 연구에서는 다수의 무작위 픽셀 crop을 candidate keypoints로 활용한 3-DoF 탑-다운 imitation learning 환경을 다루었지만 (근데 해당 연구 citation을 통해 확인해보니, Fei-Fei Li 교수님이 저자로 계신 2021년도 연구였습니다. 추후 읽어볼 필요가 있겠습니다.), 본 연구에서는 가장 관련성 있는 crop을 결정론적으로 선택하도록 학습하며, 이는 6-DoF RL 기반 조작 시스템의 일부로 작동합니다.
next-best-pose 에이전트를 훈련할 때 사용하는 confidence-aware critic은 pose estimation(DenseFusion, Morefusion) 분야에서 영감을 얻었다고 합니다. discrete한 Q-learning에서 uncertainty를 추정하는 몇몇 연구가 있었지만, 본 연구는 continuous한 Q-function을 사용하여 각 픽셀에 대한 Q값과 confidence 값을 동시에 예측하여 학습의 안정성을 개선하며, action selection 과정에서는 사용되지 않습니다.
본 연구는 또한 demonstration을 활용하는데, 기존 연구들은 demo 데이터를 replay buffer에 단순히 삽입하여 사용하며 성공적이긴 했으나, 시연 데이터의 활용이 제한적이고 수렴까지 많은 샘플을 요구하였습니다. 본 연구는 대신 keyframe 탐색 및 demo augmentation을 활용하여 시연 데이터의 활용을 극대화합니다. 본 연구의 핵심 프레임 탐색은 각 궤적을 개별적으로 분석하므로 하나의 시연 데이터만으로도 사용할 수 있다는 차이점이 있습니다. 기존 연구는 full-state information에 의존하며, vision-based manipulation 작업에서는 성능을 검증한 바 없다는 점에서 저자들의 연구가 차별성이 있다고 강조하네요.
3. Background
MDP(Markov Decision Process)

강화 학습은 보통 Markov Decision Process라는 수학적인 해석에 기반하여 핵심적인 변수들로써 상태 s ∈ S, 행동 a ∈ A, 그리고 보상 함수 R(s_t, a_t)로 구성된 환경(env)과 이에 상호 작용하는 에이전트(여기선 매니퓰레이터가 되겠습니다)가 전제됩니다. 여기서 s_t, a_t는 각각 시간 단계 t에서의 상태와 행동을 나타냅니다. 에이전트의 목표는 감가된(t라는 시간이 미래로 향할수록 보상의 효과를 감쇠하는) 보상 합의 기댓값 E_π[Σ_t γ^tR(s_t,a_t)]을 최대화하는 정책 π를 찾는 것입니다. 여기서 정책이란 것은 에이전트의 행동을 정의하는 함수라고 볼 수 있습니다. 이때 미래 보상은 할인율 \gamma ∈ [0, 1)에 따라 가중치가 부여됩니다. 각 정책 π에는 그에 상응하는 Q(s,a)라는 가치함수가 있고, 이는 상태 s에서의 행동 a를 취한 후의 정책이 얼만큼의 기대보상을 갖는지를 나타냅니다.
DQN
이 논문에서 제안된 Q-attention 모듈은 Deep Q-learning 방법에 기반합니다. Deep Q-learning에서는 Q값 함수 Q_{\psi}를 심층 컨볼루션 네트워크를 통해 근사하며, 이 네트워크의 파라미터 \psi는 리플레이 버퍼 \mathcal{D}에서 샘플링된 미니배치로부터 확률적 경사하강법(SGD)을 사용하여 다음의 손실을 최소화하도록 최적화되는 방식으로 학습합니다.
\mathbb{E}{(s_t,a_t,s{t+1})\sim\mathcal{D}}\left[ \left(r+\gamma\max_{a'}Q_{\psi'}(s_{t+1},a') - Q_{\psi}(s_t,a_t)\right)^2\right]이때 Q_{\psi'}는 타겟 네트워크로, 주기적으로 온라인 네트워크 Q_{\psi}의 값을 복사한 것으로 직접적으로 최적화되지는 않습니다. 이것이 off-policy 방법론이라고 보시면 되구요. 간단하게만 설명을 덧붙이면, off-policy 방식이라는 것은 정책이 한 네트워크 내에서만 업데이트 되는 것이 아니라, 다른 타겟 네트워크를 따로 두고, 이로부터 해당 타겟 정책의 정보를 학습에 활용하는 형태를 말하고, 그럼 반대로 on-policy의 경우는 주어진 한 네트워크 내에서만 정책을 활용하며 학습해나가는 방식으로 간단하게만 이해하시면 될 것 같습니다.
SAC
또한, 이 논문은 Soft Actor-Critic(SAC) 알고리즘을 기반으로 발전시킨 방법론이지만, 임의의 오프폴리시(off-policy) 기반 연속 제어 강화학습 알고리즘과도 호환됩니다. SAC는 보상의 합을 최대화하는 것 외에도 정책(policy)의 엔트로피를 최대화하는 특징을 가진 Maximum entropy RL 알고리즘입니다. SAC가 최대화하려는 목표는 다음과 같이 표현됩니다.
\mathbb{E}_{\pi}\left[ \sum_t \gamma^t [R(s_t,a_t)+\alpha\mathcal{H}(\pi(\cdot|s_t))]\right]이때, \alpha는 엔트로피와 보상 간의 상대적 중요도를 결정하는 온도(temperature) 파라미터입니다.
이러한 맥락에서 제안된 방법의 목표는 아래의 소프트 벨만 잔차(Soft Bellman residual)를 최소화함으로써, 소프트한 Q함수 Q_{\rho}^{\pi}를 최대화하는 것입니다:
J_Q(\theta)=\mathbb{E}{(s_t,a_t,s{t+1})\sim\mathcal{D}}\left[ \left((r+\gamma Q_{\rho'}^{\pi}(s_{t+1},\pi_{\phi}(s_{t+1})) - \alpha\log\pi_{\phi}(a_t|s_t)) - Q_{\rho}^{\pi}(s_t,a_t)\right)^2 \right]정책(policy)은 Q함수를 음의 에너지(negative energy)로 하는 볼츠만(Boltzmann) 정책 방향으로 갱신됩니다. 구체적으로 정책 갱신은 다음과 같이 표현되는 정책과 볼츠만 정책 간의 쿨백-라이블러(Kullback-Leibler) 발산(KL-divergence)을 최소화하는 것을 목표로 합니다:
\pi_{\text{new}}=\arg\min_{\pi'\in\Pi}\text{D}{\text{KL}}\left(\pi'(\cdot|s_t)\middle|\frac{\frac{1}{\alpha}\exp\left(Q^{\pi{\text{old}}}(s_t,\cdot)\right)}{Z^{\pi_{\text{old}}}(s_t)}\right)이 KL-divergence를 최소화하여 정책 파라미터를 학습하는 것은 소프트 Q함수의 기댓값을 최대화하는 것과 같다는 것이 알려져 있습니다. 이를 다음과 같은 식으로 표현할 수 있습니다:
J_{\pi}(\phi)=\mathbb{E}{s_t\sim\mathcal{D}}\left[\mathbb{E}{a\sim\pi_{\phi}}\left[\alpha\log(\pi_{\phi}(a_t|s_t))-Q_{\rho}^{\pi}(s_t,a_t)\right]\right]4. Method
방법론은 기본적으로 3가지 파이프라인으로 구성됩니다. high-level pixel agent로써의 Q-attention, Q-attention으로부터 받은 pixel location 정보를 활용해 관측된 정보를 crop하고 6D pose를 예측하는 Next-best Pose Agent, 앞선 Next-best Pose 정보를 기반으로 goal에 도달하기 위한 연속 action정보를 실행할 수 있게끔하는 low-level Control Agent로 흘러갑니다. 근데 이제 학습 전에 저자들이 제안한 keyframe discovery와 demo augmentation 방법론을 활용해 demo를 replay buffer(off-policy 방식으로 인해 사용)에 담아놓은 방식으로 학습 속도를 향상시켰다고 합니다.
일단 각 파이프라인 설명에 앞서,,, 전반적으로 알아둬야하는 세팅을 좀 나열하겠습니다. 모든 실험은 RLBench, 즉 시뮬레이터 벤치마크 환경에서 수행되고, 시스템은 부분 관측 마르코프 결정 과정(POMDP)을 따르는 것을 가정으로 깔고 간다고 합니다.

POMDP에 대해 좀 더 설명하자면, real world env에서는 시스템의 full state를 agent에 제공하는 경우가 거의 없습니다. 즉, Markov 특성이 실제 env에서는 정의되지 않는 셈인데, state의 obs가 보장되지 못하는 환경에서 agent를 구성하기 위한 보충 hidden state를 정의하기 위한 방식이라고 보면 될 것 같습니다.

그래서 위 튜플을 보시면, 기존 일반 MDP(<S,A,P,R,\gamma>)에 비해, 관측과 관련된 변수가 2개 더 들어가게 됩니다. 좀 정리하자면 결론은 POMDP의 핵심은 노이즈나 불확실성 등으로 인해 상태를 전부 추정할 수 없는 real-world환경에서 observation을 기반으로 state를 추정해서 활용하겠다는 것으로 이해하면 될 것 같습니다. 제가 이전엔 계속 의문을 갖고 있던 부분이 state == observation 인가? 였는데, POMDP 개념을 통해 좀 해소된 것 같습니다.
관측 o는 RGB 이미지 b, 정리된 포인트 클라우드 p, 그리고 proprioceptive data(내적 감각 데이터로 ee의 pose와 gripper의 열림상태를 나타낸다고 합니다.) z로 구성됩니다. 행동은 6D next-best pose와 gripper action으로 이루어집니다. 보상 함수는sparse하게 정의되어 작업 완료 시엔 100을, 그 외 모든 transition(t -> t+1 의 상태로의 변화)에서는 0을 제공합니다. Q-attention, next-best pose, control module의 세 단계는 동일한 POMDP 가정에서 작동하지만 서로 다른 action 모드를 사용합니다. 보상은 세 단계가 모두 실행된 이후에 한 번 부여된다고 합니다(근데 이게 공유된다고 하네요.). 매 time step마다 전면 카메라로부터 RGB 이미지 b와 깊이 이미지(depth image) d를 추출하고, 카메라 내외부 파라미터는 이미 알고있단 전제로 사용하여 각 depth 이미지를 처리해 전면 카메라 시점에서 월드 좌표계로 투영된 포인트 클라우드 p를 생성하며, 최종적으로 H \times W \times 3 형태의 ‘이미지’로써 변환한 후 network 인풋에 사용됩니다.


A. Q-attention
저자들은 인간의 시각 인지에 의한 액션 수행에 영감을 받아, RGB와 포인트 클라우드를 입력으로 받아 다음 관심 영역의 2D 픽셀 좌표를 출력하는 Q-attention 모듈을 제안합니다. 이 픽셀 좌표를 이용하여 다시 RGB와 정리된 포인트 클라우드 입력을 크롭(crop)함으로써 파이프라인의 다음 단계로 전달되는 입력 크기를 획기적으로 줄입니다. Q-attention은 Q-러닝을 통해 명시적으로 학습되며, 이때 이미지는 ‘환경(environment)’으로써, 픽셀 좌표는 ‘행동(actions)’으로써 취급하여 학습된다고 합니다.
Q-attention 함수 Q_\theta가 주어지면, 가장 높은 값을 갖는 픽셀 좌표를 다음과 같이 추출합니다.
(x_t, y_t) = \arg\max_{a'} 2D,Q_\theta(s_t^q, a')
여기서 s^q=(b,p)는 간결함을 위해 정의한 상태 표현이라고 합니다.
Q-attention의 파라미터는 확률적 경사 하강법을 사용해 다음 손실 함수를 최소화하도록 최적화됩니다.

여기서 Q_{\theta'}는 타겟 Q-함수(target Q-function)이고, |Q|는 Q 함수의 픽셀별 출력에 대한 L2 손실(이를 Q 정규화(Q regularisation)라 부릅니다.)입니다. 실제로 이 정규화 항은 Q 값의 과대추정(overestimation) 문제에 대한 강건성을 높이는 데 도움이 됨을 확인했습니다.


Q-attention 네트워크는 경량화된 U-Net 스타일 아키텍처를 따르며, Q-attention의 픽셀별 출력 예시는 Fig. 3에 나타나 있습니다. Q-attention이 제안한 좌표를 이용해 128×128 RGB와 포인트 클라우드 데이터에 대해 각각 16×16 으로 crop을 수행합니다:
본 모듈은 NLP 및 CV 분야에서 영감을 받은 어텐션 메커니즘과 유사한 동기가 있지만서도, 공식스러운 측면에서는 차이가 있습니다. 먼저 soft attention과 hard attention 중 어떤 attention에 해당하는 지 먼저 살펴봐야합니다.
soft attention은 attention map을 feature map에 곱하는 방식인 반면, hard attention은 attention map을 확률적으로 사용해 feature map이나 입력으로부터 하나 또는 소수의 특징을 샘플링합니다(이는 approximate variational lower bound을 최대화하거나 on-policy REINFORCE로 최적화됩니다). 본 논문에서는 미분 불가능한 크롭(crop)을 수행하므로 Q-attention을 hard attention으로써 분류하지만, 전통적인 hard attention이 근사 변분 하한(variational lower bound)을 최대화하거나 REINFORCE 이라는 초기 policy gradient 강화학습방법론을 통해 on-policy 방식으로 최적화되는 것과 달리, 제안된 Q-attention은 off-policy 방식으로 학습된다는 점이 차별성이 있다고 합니다. 이는 demonstration data를 활용하는 것의 정의가 off-policy이므로, 기존의 hard attention 기법들이 데모 기반 RL에는 사용할 수 없게 된다는 점에서 차별성을 강조하네요.
B. Next-best Pose Agent
Next-best Pose Agent는 crop된 RGB b'와 포인트 클라우드 p'를 입력으로 받아 6D pose를 출력합니다. 이 부분의 에이전트는 로봇이 이전에 선택된 포즈에 도달할 때마다 실행됩니다. 6D pose는 3D translation과 e\in\mathbb{R}^3와 단위 쿼터니언 q\in\mathbb{R}^4로 표현하며, 쿼터니언 q의 w 출력을 양수로 제한하여 네트워크가 유일한 단위 쿼터니언만 출력하도록 합니다. 그리퍼 동작 h\in\mathbb{R}는 [0,1] 구간의 연속값이며, 이후 이진(open/close) 값으로 이산화됩니다. 따라서 결합된 행동은
a^\pi = {e,;q,;h} 가 됩니다.
이 Next-best Pose Agent를 학습시키기 위해서 사용된 강화학습 알고리즘은 조금 수정된 Soft Actor-Critic(SAC) 입니다. 일반적으로 시각 입력으로부터 Q값을 예측할 때, 소프트 Q-함수는 픽셀 특징을 집계(예: global maxpooling)하여 단일 Q값을 출력합니다. 저자들은 confidence-aware 소프트 Q-함수라는 것을 제안하는데, 6D pose estimation 분야의 최근 연구에서 밀집 픽셀마다 포즈 예측과 함께 confidence score c를 출력하는 방식을 도입하는 방식을 착안하여 본 논문에서는 픽셀별 Q값 예측마다 confidence score c_{ij}를 추가하여 16\times16\times2 크기의 출력을 얻습니다. 이를 위해 픽셀별 Bellman 손실에 픽셀별 신뢰도를 가중치로 곱하고, confidence 정규화 항을 더한 loss 함수를 학습에 사용하는데,, 다음과 같습니다.

식에서 간결성을 위해 s^\pi=(b',,p',,z)로 표시한다고 합니다. 이 loss 구조 하에서 confidence가 낮으면 Bellman loss 항은 작아지지만 정규화 항에서 큰 패널티를 받고, 반대로 confidence가 높으면 loss 항은 커도 패널티는 작아집니다. actor 네트워크와 critic 네트워크 중 actor를 학습할 때, 여러 후보 Q값 중 가장 높은 신뢰도를 가진 값을 사용하는 약간의 수정을 거치는데, 이는 critic으로부터의 정확한 Q값이 안정적인 actor-critic 학습에 있어서 필수적이므로, 후보들 중 confidence가 가장 높은 값을 선택함으로써 actor의 업데이트를 보다 안정적으로 수행할 수 있다는 점을 고려했다고 합니다. 참고로, 이 confidence 인지 방법을 정책 policy에도 적용해 보았으나, 실험적으로 유의미한 개선은 없었다고 하네요. 실제 구현에서는 두 개의 Q 네트워크 중 최소값을 사용하는 ‘clippig double Q’ 트릭을 사용하지만, 식의 간결함을 위해 생략했다고 합니다. 결론적으로 actor 네트워크의 정책을 모사하는 파라미터들은 (3)번 loss 함수를 최소화함으로써 최적화되게 됩니다.

C. Control Agent
Next-best Pose Agent에서 제안된 pose를 goal로 잡고, 이를 goal-conditioned 제어 함수 f(s_t,,g_t)에 입력합니다. 여기서 상태 s_t와 목표 g_t를 받아 엔드이펙터가 목표를 향해 이동하도록 모터 속도를 출력합니다. g = a^{\pi}, 즉 Next-best Pose 자체가 목표로 설정되는 것입니다. 이 제어 함수는 여러 형태로 구현할 수 있으나, 특히 유의미한 두 가지 접근법은 (1) 피드백 제어(feedback-control)와 결합된 모션 플래닝, 또는 (2) 모방 학습/강화학습으로 학습된 정책(policy)입니다. 벤치마크 시뮬레이터 환경의 동역학이 제한적이라는 점을 고려하여, 저자들은 모션 플래닝 기반 솔루션(SBL, OMPL)을 채택했다고 하네요.
목표 포즈가 주어지면, OMPL 내부의 SBL planner를 사용해 path planning을 수행하고, Reflexxes Motion Library(?) 라는 것을 통해 on-line trajectory (각 time step에서의 정보를 모두 합친 에피소드 개념이라고 이해했습니다.)를 생성합니다. 만약 목표 포즈가 로봇의 가용 영역 밖이라면, 해당 에피소드를 종료하고 보상으로 –1을 부여합니다. 이 path planning 및 trajectory 생성 과정은 RLBench의 ‘ABS_EE_POSE_PLAN_WORLD_FRAME’ 액션 모드로 간편하게 캡슐화되어 있다고 합니다.
D. Keyframe Discovery & Demo Augmentation
sparse reward 문제를 완화하기 위해 저자들은 주어진 demo의 유용성을 극대화하는 방식을 취했습니다. teacher 정책 \pi^*(예: 모션 플래너나 인간 원격 조종자)가 일련의 상태와 행동으로 구성된 궤적
\tau = [(s_1,a_1),\dots,(s_T,a_T)]
을 생성할 수 있다고 가정하고, 이때 데모는 RLBench에서 가져온 것이라 가정합니다.
keyframe discovery라는 과정은 각 데모 궤적 \tau의 상태‑행동 쌍 (s,a)에 대해 함수
K:\mathbb R^D\to{\text{True},\text{False}}
를 적용하여, 해당 지점을 키프레임으로 처리할지 여부를 결정하는 Boolean 값을 출력합니다. K 함수는 여러 제약조건을 포함할 수 있지만, 실제로는 두 가지 간단한 조건의 논리합(disjunction)만으로도 잘 작동함을 확인했다고 합니다. 이 조건들은
- 그리퍼 상태 변화(무언가를 잡거나 놓을 때 흔히 발생)
- 속도가 거의 0에 근접(프리 그랩(pre‑grasp) 포즈 진입이나 작업의 새로운 단계 진입 시 흔히 발생)할 때 입니다. 더 복잡한 문제가 주어지면 K도 학습이나 추가 조건(예: 방향·관절 속도 갑작스러운 변화, 픽셀 값의 큰 변화 등)을 통해 더 정교해지는 건 불가피하며, Fig. 5는 4가지 태스크에서 keyframe discovery으로 얻은 RGB 관측을 시각화한 것이라고 합니다.

각 키프레임마다, 카메라 내외부 파라미터를 이용해 상태 s_{t+1}의 ee 포즈를 상태 s_t의 영상 평면으로 투영하여 다음 키프레임에서의 ee 픽셀 위치를 얻습니다.
이 키프레임 발견 방법을 사용하면, 각 궤적은 N = \mathrm{length}(keyframes)개의 transitions을 리플레이 버퍼에 저장하게 됩니다. 데모의 유용성을 더욱 높이기 위해, demo augmentation을 적용하는데, 이는 궤적 상의 중간 지점에서 키프레임 상태로의 transitions을 저장합니다. 구체적으로, 키프레임 k_i로부터 시작하는 궤적 상의 각 지점에 대해, 시점 t의 ee 포즈(상태 s_t에서 취함)에서 키프레임 k_{i+1}에 해당하는 시점의 ee 포즈로의 변환을 계산합니다. 이 변환은 next-best pose agent의 액션으로 사용할 수 있습니다. 궤적 상의 매 M번째 지점(여기서 M=5)마다 이 과정을 반복하며, 이러한 demo augmentation 과정은 아래 Fig. 4를 참고차 첨부했습니다.

검은 실선: 원본 궤적, ‘!’: 키프레임, 파란색 점선: 키프레임으로 증강된 transitions 라고 보시면 됩니다.
5. Results
Experiments Setting
저자들은 실험을 통해 다음 질문들에 답하고자 합니다.
(1) 희소 보상이 주어지는 다양한 조작 과제들을 성공적으로 학습할 수 있는가?
(2) 제안한 구성 요소 중 어떤 것이 성과에 가장 크게 기여하는가?
(3) 데모 개수와 크롭 크기에 대해 방법이 얼마나 민감한가?
이 질문들에 답하기 위해 RLBench를 사용해 벤치마크를 수행했고, 총 100개의 태스크 중 전면 카메라만으로 달성 가능하다고 판단되는 8개 과제(맨 처음 Fig. 1 참조)를 선택했고, 다수의 카메라를 요구하는 과제는 추후 연구 과제로써 남겼습니다. 각 태스크는 작업 완료 시에만 +1의 희소 보상을, 그 외에는 0의 보상을 줍니다.
첫 번째 질문에 대한 답은 Fig. 6에서 확인할 수 있습니다. 모방 학습 및 강화학습 문헌에서 일반적으로 사용되는 여러 베이스라인으로 행동 클로닝(BC), SAC+AE [41], DAC [42] (GAIL [43]의 개선된 오프-폴리시 버전), SQIL [44], DrQ [45] 등의 실험결과를 포함했습니다. 이들 베이스라인에는 본 논문의 주요 기여인 Q-attention은 포함되지 않지만, 키프레임 발견과 데모 증강은 동일하게 적용했습니다. 모든 방법은 동일한 100개의 데모 시퀀스를 사용하며, 학습 전 리플레이 버퍼에 로드합니다. 베이스라인 에이전트의 아키텍처는 다음-최적 포즈 에이전트와 유사하나, Q-attention이 없으므로 크롭되지 않은 전체 RGB와 정리된 포인트 클라우드 데이터를 입력으로 받도록 일부 차이가 있습니다. 강화학습 베이스라인은 신뢰도 인지 크리틱을 사용하지 않으므로 픽셀별 값 대신 단일 Q값을 출력합니다.
구체적으로, 아키텍처는 그림 2와 동일한 RGB-포인트 클라우드 융합 방식을 사용합니다. 공유 표현에서 추출된 특징 맵을 재구성된 고유 감각(proprioceptive) 입력과 연결(concatenate)하여 액터와 크리틱에 모두 전달합니다.
- 액터: 3개의 컨볼루션 레이어(64채널, 필터 크기 3×3, 스트라이드 2)를 사용하며, 출력 특징 맵을 맥스풀링한 뒤 2개의 전결합 레이어(64노드)를 거쳐 행동 분포를 출력합니다.
- 크리틱: 3개의 레지듀얼 컨볼루션 블록(128채널, 필터 크기 3×3, 스트라이드 2)을 사용하며, 출력 특징 맵을 맥스풀링한 뒤 2개의 전결합 레이어(64노드)를 거쳐 단일 Q값을 출력합니다.
모든 방법은 LeakyReLU 활성화 함수와 컨볼루션 레이어 내 레이어 정규화(layer normalisation), 학습률 3×10⁻³, 소프트 타깃 업데이트 계수 τ=5×10⁻⁴, 보상 스케일링 100을 사용합니다. 학습과 탐색은 실제 로봇 학습 시나리오를 모방하기 위해 단일 에이전트로 비동기(asynchronous) 방식으로 수행되며, 100 스텝마다 체크포인트를 로드합니다.
Fig. 6.

Fig 6의 결과를 보면, 베이스라인 방법들은 어떠한 RLBench 태스크도 성공적으로 수행하지 못했습니다.(..!) 그럼에도 Q-attention 은 비교적 적은 환경 step 내에 성공한 것을 보이고 있는데요. 이런 성능 격차는 다음 두 가지 핵심 요인이 결합된 결과라고 저자들은 분석합니다.
- Q-attention을 통해 입력 차원을 크게 줄임으로써, 학습이 어렵고 불안정해지기 쉬운 연속 제어 알고리즘의 부담을 획기적으로 완화한 점
- 키프레임 발견(keyframe discovery) 기법을 결합하여, Q-attention 네트워크가 빠르게 수렴하고 next-best pose 에이전트에 의미 있는 관심 지점을 제안할 수 있도록 한 점
충분한 학습 시간이 주어진다면 다른 일부 베이스라인도 결국 성공할 가능성이 있겠지만, 본 연구에서는 그러한 증거를 찾지 못했습니다. 만약 베이스라인 강화학습 방법들이 이 태스크들을 성공적으로 학습하려면, 시뮬레이터 전용 특권 기능(예: 데모 리셋, 비대칭 액터‑크리틱, 보상 셰이핑, 보조 과제 등)에 의존해야 할 것이며, 이는 실제 로봇 학습 환경에서는 적용하기 어렵다는 문제가 잔재합니다.
Fig. 7. (ablation study)

그림 7a에서는 제안된 구성 요소들이 성과에 어떻게 기여하는지 평가하기 위한 ablation study을 수행했습니다. 난이도가 다른 두 태스크(‘take_lid_off_saucepan’과 ‘put_rubbish_in_bin’)를 선택하여 실험한 결과, Q-attention(및 key frame discovery)이 과제 달성에 결정적으로 중요하며, demo augmentation, confidence-aware critic, Q regularisation가 전체적인 안정성과 최종 성능 향상에 기여하는 것을 볼 수 있었습니다. Q-attention 모듈을 소프트 어텐션(soft attention) 모듈로 교체했을 때는 바닐라 베이스라인 수준의 성능을 보였는데, 이는 소프트 어텐션이 명시적 손실 없이 암묵적으로 학습되는 반면, 본 논문의 Q-attention은 오프-폴리시 Q-러닝으로 명시적 손실을 통해 학습되어 키프레임 발견으로 얻은 정보량이 많은 키프레임을 보다 효과적으로 활용하기 때문입니다. 전통적 하드 어텐션(hard attention)은 온-폴리시 학습을 필요로 하므로 비교 대상에 포함하지 않았다고 합니다.
그림 7b에서는 데모 개수를 달리했을 때의 robustness를 평가했습니다. 결과는 데모 수를 절반으로 줄여도 전반적으로 안정적인 성능을 유지하지만, 작업 난이도가 높아질수록(‘take_lid_off_saucepan’ → ‘put_rubbish_in_bin’) 데모 부족의 영향이 더 크게 나타남을 보여줍니다.
마지막으로 그림 7c에서는 crop size에 따른 성능 변화입니다. 작업 난이도가 높아질수록 큰 크롭을 사용할 때의 부정적 영향이 두드러졌는데, 이는 Q-attention의 주요 이점 중 하나가 next-best pose 에이전트에 전달되는 입력 크기를 대폭 줄여 강화학습 최적화를 훨씬 용이하게 만든다는 점을 시사합니다. 작은 크롭을 선택하면 학습 샘플 수가 늘어나고, 큰 크롭을 선택하면 주변 정보를 더 많이 반영할 수 있으므로 두 요소 간의 절충(trade‑off)이 필요합니다. 모든 태스크에서 16\times16 크롭을 사용했을 때 좋은 성능을 얻었다고 합니다.
6. Conclusion
DRL에 대한 사전지식이 매우 없어 굉장히 읽는 데 시간이 많이 걸린 논문이었습니다.. 아직도 수식이 이해되지 못한 부분이 많아 수식을 하나하나 뜯어 세세하게까지는 설명을 못드린 것 같고, 처음 나오는 개념들에 대해서도 설명을 못한 부분이 많지 않나 싶습니다.. 좀 와닿지 않은 표현들로 전달드리게 된 것 같습니다. 그럼에도 저희 로보틱스 팀이 고려하고자 하는 vision 기반의 DRL을 다루고 있단 점에서 얻어가는 게 많은 논문인 것 같고, 기초지식을 계속 공부하면서 내용이 점차 흡수됨에 따라 와닿는 표현으로 정리할 내용이 있다면 추가로 글 수정해나가보도록 하겠고, 다음 리뷰 땐 공부 더 많이 하면서 읽어보겠습니다. 감사합니다.
안녕하세요 좋은 리뷰 감사합니다.
해당 알고리즘이 시연 데이터에서 keyframe을 추출하여 초기에 명시적인 supervision 학습을 한다고 이해했습니다. 시연 데이터 인스턴스마다 N개의 keyframes을 discovery하고 그 외의 프레임을 augmentation에 활용하는것 같은데, 해당 augmentation은 action에 대해 다양화하고 COT처럼 프로세스의 연속과정 중 유지되어야 하는 state만을 유지한 것으로 이해하면 되는지 궁금합니다.
둘째로는 keyframes이 프레임 단위로 선정되는 것 같은데, 그리퍼의 정책 모델링에는 시간 정보도 중요할 것 같습니다. 프레임 단위의 어텐션 알고리즘은 시간측에 대한 이해도를 낮출것 같은데, 이러한 경향성에 대한 저자와 재찬님의 분석이나 의견이 궁금합니다.
감사합니다.