[CoRL 2023 Oral] Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping

이번 논문은 LEFT-TOGO라는 논문으로 저희가 진행하고 있는 LLM 로봇 과제에서 지향하는 목표 중 하나를 구현한 논문에 해당합니다. 해당 논문은 VLM의 특징 정보를 가진 NeRF인 LERF를 활용하되, 작업 수행을 위한 객체의 의미론적 부위 파지(Task-Oriented Grasping)를 수행하는 방법을 제시한 논문입니다.

Intro

일반적인 물체들은 파손을 방지하거나 작업에 적절한 수행을 위해서는 적절한 파지를 수행하는 것이 중요합니다. 예를 들어, 칼은 손잡이를, 꽃은 줄기를, 선글라스는 렌즈가 아닌 프레임을 잡아야 하죠. 기존 로봇 인지 분야에서의 파지 기술(e.g. 6D Pose estimation~GrapsNet…)들은 임의 물체에 대한 파지 성공에 견고성을 보이기는 하지만 해당 시스템들은 일반적으로 물체를 들어 올렸는지 여부에 따라 작업 성공을 따집니다. 이러한 방법들은 물체에 대한 의미론적 특성을 무시한다는 단점이 존재합니다. 원하는 작업 및 제약에 맞춰 물체의 부위를 잡는 능력을 “Task-Oriented Grasping”라고 칭하며, 해당 능력에 대한 많은 연구들이 진행되어져 왔습니다. 해당 연구들은 object affordance dataset을 수집하고 이를 기반으로 affordance를 예측하는 방법을 추구하나, 물체의 크기나 다양한 범주 그리고 파지 영역에 대한 모호성으로 인해 일반화를 진행하기 어렵다는 문제가 존재합니다.

저자는 위와 같은 문제점을 해결하기 위해 “만약에 유연성을 갖춘 자연어의 잠재적 능력을 파지에 사용한다면 어떨까?”라는 궁금증을 토대로 해당 연구를 제시합니다. 해당 연구에서는 제로 샷 방식으로 VLM을 사용하여 자연어를 통해 ask-oriented grasping을 가능하게 하는 방법인 LERF-TOGO(LERF for Task-Oriented Grasping on Objects)를 제안합니다.

LERF-TOGO는 fig 1과 같 물체와 작업 측면에서의 물체 부위의 명칭을 자연어로 입력으로 받습니다. 그리고 로봇이 해당 물체를 잡기 적절한 파지 위치를 랭킹한 값을 출력해줍니다. 좀 더 구체적으로 설명하자면 해당 기법은 기본적으로 NeRF로 재구성된 정보에 CLIP의 특징 맵핑된 Language Embedded Radiance Fields (LERF)를 기반으로 합니다. 문장으로 된 프롬프트 쿼리가 주어지면 쿼리와 유사성을 의미하는 3D relevancy heatmap을 출력합니다. 허나, 해당 heatmap은 물체 전체에 집중하기 때문에 물체 파지 부위에 어려움을 가집니다. 그렇기에 저자는 추론 중에 3D DINO를 활용하여 LERF의 능력을 향상시키는 방법을 사용합니다. 3D DINO를 활용해 object sub-part query를 객체 마스크로 제한하는 conditional LERF query 방법을 제안하여 LERF의 다중 스케일 특성을 활용하여 객체 내의 특정 영역을 배제하도록 합니다. 그 다음, GraspNet을 이용하여 파지 위치를생성하고 기하학적/의미론적 분포를 기반으로 re-ranking을 수행하여 파지 위치를 발견하는 방법을 이용합니다.

저자는 알고리즘을 평가하기 위해서 실제 로봇으로부터 39 common household objects에 대해 평가를 진행합니다. 실험 결과, 96%는 올바른 물체에, 82%는 올바른 물체 파트에, 69%는 파지까지 성공하는 결과를 보입니다.

Method

Problem and Assumptions. 테이블 탑 내 물체들이 주어지면 로봇이 입력된 자연어 쿼리를 통해 지정된 대상 물체를 파악하고 들어올리는 것이 목표입니다. 해당 쿼리( e.g., “sunglasses; ear hooks.”)는 object query(“sunglasses”)와 태스크 측면의 객체를 잡을 부분 (“ear hooks”)을 지정하는 object part query를 모두 포함합니다. 또한, robot manipulator에 parallel jaw gripper와 calibrated wrist-mounted RGB camera가 있다는 가정에서 쿼리가 단일 객체를 지정한다는 가정을 세웠다고 합니다.

Pipeline. object and object part query가 주어졌을 때, LERF-TOGO는 object part에 대한 후보 파지 위치에 대한 랭킹을 출력합니다. 이를 달성하기 위해서 관찰된 장면에 대해서 LERF로 복원을 수행합니다. Text query가 주어지면 LERF는 장면 내 relevant parts에 대한 3D relevancy map을 출력 할 수 있습니다. 그 다음, LERF의 3D relevancy map과 DINO-based semantic grouping을 통해 3D object mask를 생성합니다. conditional LERF query를 수행하여 물체 부위에 대한 3D part relevancy map을 생성합니다. 이렇게 생성된 part relevancy map은 semantic graps selection을 위한 정보로 활용 됩니다. 전반적인 파이프라인에 대한 도식화는 fig 3에서 확인 가능합니다.

3D Object Extraction. LERF의 중요한 한계는 객체 내의 공간적 그룹핑이 부족하다는 점입니다. 예를 들어 “can opener”가 주어졌을 때, LERF는 객체를 명확하게 식별하기 위한 특징에 하이라이팅하는 하는 경향이 있습니다(e.g. the metal cogs on the can opener as shown by the orange star in Fig. 3). 이는 객체를 파지하기 위한 태스크에서는 적절하지 못하죠. 저자는 이러한 이유를 LERF는 패치 단위로 학습을 진행하기 때문에 CLIP feature가 주변 병따개의 손잡이까지 하나의 물체라고 인식하기 어려워 한다고 주장합니다. 저자는 이를 극복하기 위해서 추론 동안 DINO를 활용하고자 합니다. DINO가 전경과 배경을 구분하는 데에 타고난 점을 고려했다고 하네요.

구체적으로 다루면, 먼저 장면에 대해 top-down view로 LERF로부터 객체에 대한 대략적인 위치 정보와 3D relevancy map을 얻습니다. top-down view로 렌더링된 DINO feature로부터 PCA의 첫번째 주성분을 임계값으로 설정하여 foreground mask를 생성합니다. 그리고 해당 마스크 내에서 relevancy query 중 가장 높은 스코어를 가진 3D point를 찾습니다. 그런 다음, 해당 3D point를 중심으로 여러 뷰를 생성하고 이로부터 DINO feature를 추론하고 3D point와 유사성이 특정 임계값 이상인 경우, 포함시켜 점진적으로 오브젝트 마스크를 늘립니다.

+ 요약하면 LERF 개선시키는 것이 목표. 방법은 NeRF로 여러 뷰 생성하고 생성된 뷰를 DINO로 유사성 검사하여 마스크를 재생성하는 방법을 이용함.

Conditional LERF Queries. 저자는 또 다른 문제점으로 CLIP이 BOW처럼 동작한다는 점을 제시합니다. 즉, “mug”와 “mug handle”은 CLIP feature가 아주 유사하게 추론합니다. 이는 CLIP이 문장의 문법적 구조가 아닌 개별 단어에 집중하기 때문이라고 합니다. 해당 현상을 완화하기 위해서 저자는 쿼리를 객체와 객체 파트로 나누고, 전체 장면을 활용하는 것이 아닌 인지된 객체만을 활용하고자 합니다. 정리하면, “can opener”로 얻어진 병따개의 3D relevancy map에서만 “handle”을 쿼리하여 유사성이 높은 sub-part에 대한 3D relevancy map을 생성하는 방법을 이용합니다.

Grasping. 파지 위치에 대해서는 GraspNet을 이용합니다. 본래는 단일 RGBD를 사용하는 것이 맞지만, 저자는 NeRF로부터 다양한 RGBD를 생성하여 여러 파지 후보를 생성하고 NMS를 통해 중복된 파지 후보를 제거하였다고 합니다. (이를 the geometric distribution라고 하네요)
Grasp Ranking. 이렇게 생성된 파지 후보를 LERF-TOGO로부터 얻을 수있는 semantic distribution과 결합하여 re-ranking을 수행합니다. semantic score s_sem은 해당 파지 부위 영역에 대한 LERF의 relevancy의 median으로 결정됩니다. geometric score s_geom은 GraspNet의 confidece로 결정됩니다. 최종적인 grasp score s = 0.95s_sem + 0.05s_geom을 토대로 최종 파지 위치를 결정합니다.

Experiments

Part-Oriented Grasping. fig 4와 같이 31 different objects and 49 total object parts to grasp로 구성됨. 최대한 모호성을 배제하여 의미론적인 정보를 포함하였고, 색상이 같은 동일 객체가 구성된 경우에는 시각적 정보도 포함했다고 합니다. 또한, 객체를 파지하고 들어올리기 위한 part query도 구성함. 파지에 대한 성공은 10cm 들어올리고 꼭 잡을 상태를 유지한 경우로 설정. 각 쿼리에 대한 평가를 위해 저자는 1) 올바른 object를 파지, 2) 올바른 part를 파지, 3) lifted까지 했는지를 측정함. 모든 장면들은 초기에 재구성을 수행하고 물체가 순차적으로 제거되며, 별다른 업데이트 수행하지 않았다고 함.

Task-Oriented Grasping. ChatGPT를 이용하여 태스크 측면에서 적절한 파지 부위를 생성하여 이를 쿼리로 사용했다고 함

Comparisons

+ 실험 파트는 정량적 결과는 fair-comparisons을 해야하니 어쩔 수 없이 한 것 같은 느낌이 들고, 정성적 결과가 더 의미가 있는 것 같습니다. 정성적 결과는 다음 링크에서 확인 가능합니다.


흠… 솔직히 LERF를 로봇 파지에 적용하고 오! 생각보다 잘됨! 정도의 논문이라고 생각이 듭니다. 아마 해당 연구가 줄 파급력이 높게 평가되어 oral로 선정된 것 같네요… 흠…

Author: 김 태주

1 thought on “[CoRL 2023 Oral] Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping

  1. 안녕하세요 태주님, 좋은 리뷰 감사합니다.

    결국 LERF라는 NeRF와 CLIP을 결합한 방식에서 더 나아가 생성된 주변 뷰 및 객체의 relevancy map에 대해 DINO feature를 활용하여 특정 주성분 임계값으로 전경과 배경을 나누는 3D mask를 만들고, 이 마스크 내에서 객체에 관한 프롬프트 쿼리와의 유사성을 갖는 relevancy map을 또 뽑아 이것들로부터 affordance 후보를 선정하는 것으로 이해했습니다.

    여기서 궁금한 것은 이렇게 파이프라인 내에서 relevancy map이 두번 언급되게 되는데, 둘 다 동일한 개념이라고 생각하면 될까요?

    감사합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다