π0: A Vision-Language-Action Flow Model for General Robot Control

이번에 리뷰 해볼 논문은 π0: A Vision-Language-Action Flow Model for General Robot Control 라는 논문입니다.

위 논문은 단일 로봇 팔(single-arm robots), 이중 로봇 팔(dual-arm robots), 그리고 이동형 조작 로봇(mobile manipulation) 등 다양한 로봇 플렛폼에 적용가능하다고 소개합니다.

논문 주소 : https://www.physicalintelligence.company/download/pi0.pdf

블로그 주소: https://www.physicalintelligence.company/blog/pi0

Abstract

Robot learning은 유연하고 범용적이며 정교한 로봇 시스템의 잠재력을 극대화할 수 있는 엄청난 가능성을 지니고 있으며, AI분야에서 가장 근본적인 문제들 중 일부를 해결할 수 있는 열쇠가 될 수 있습니다. 그러나, robot learning은 실세계 시스템에서 효과적으로 작동할 수 있는 수준의 generality로 확장할 수 있는 것은 data, generalization, 그리고 robustness 측면에서 주요한 도전에 직면하고 있습니다.

본 논문에서는 Generalist Robot Policies, 즉 로봇 기초 모델(Robot foundation models)이 이러한 문제를 해결할 수 있는지 논의하고, 복잡하고 높은 수준의 정교한 작업을 수행할 수 있는 효과적이고 범용적인 로봇 정책을 설계하는 방법을 탐구합니다. 이는 사전 학습된 Vision-Language Model(VLM)의 위에 새로 구축된 Flow Matching Architecture을 제안하여, 인터넷 규모의 semantic Knowldege를 상속(inherit)할 수 있도록 설계하였습니다. 그 후, 이 모델은 단일 로봇 팔(single-arm robots), 이중 로봇 팔(dual-arm robots), 그리고 이동형 조작 로봇(mobile manipulation) 등, 여러 정교한 로봇 플랫폼에서 수집된 대규모 다변화 데이터셋을 활용하여 학습하는 방법을 논의합니다.

이후 이 모델을 다양한 관점에서 평가하며,

Direct Prompting를 통해 작업을 수행할 수 있는지
사람이나 High-Level VLM Policy에서 주어진 Language instructions을 따를 수 있는지
Fine-tuning을 통해 새로운 기술을 습득할 수 있는지

위 3가지를 검증합니다.

실험 결과, 세탁물 개기(laundry folding), 테이블 청소(table cleaning), 상자 조립(assembling boxes)등 다양한 작업에서 모델의 성능을 평가하며, General robot policy의 가능성을 제시합니다.

1. Introduce

"인간은 기저귀를 갈고, 침략을 계획하며, 돼지를 도살하고, 배를 조종하며, 건물을 설계하고, 소네트를 쓰며, 계정을 정산하고, 벽을 쌓고, 뼈를 맞추고, 임종을 위로하며, 명령을 따르고, 명령을 내리고, 협력하며, 혼자 행동하고, 방정식을 풀고, 새로운 문제를 분석하며, 거름을 퍼 나르고, 컴퓨터를 프로그래밍하고, 맛있는 음식을 요리하며, 효율적으로 싸우고, 용감하게 죽을 수 있어야 한다. 전문화(Specialization)는 곤충을 위한 것이다."
— 로버트 A. 하인라인, 『Time Enough for Love』

AI 시스템은 다양한 형태로 존재하며, 단백질 구조 예측과 같은 특수한 문제를 해결하는 AI부터 Text prompt를 기반으로 사실적인 이미지나 동영상을 생성하는 시스템까지 포함됩니다. 그러나 인간 지능이 기계 지능을 능가하는 가장 큰 축(axis)은 "다양성(versatility)"이며, 이는 물리적 환경에서의 적응력, 언어 명령 이해, 예기치 않은 변화에 대한 대응 능력 등을 포함합니다. AI에서 이러한 다양성이 가장 발전한 분야 중 하나는 LLM 및 Vision-Language Model로, 웹에서 수집한 이미지와 텍스트 데이터를 사전 학습하고 추가 학습을 통해 원하는 행동 패턴을 익힙니다. 하지만 이러한 모델들은 물리적 환경에서 직접 위치한 존재가 아니며, 물리적 상호작용에 대한 이해도 추상적인 설명에 기반하고 있습니다. AI를 인간처럼 다양한 환경에서 적응할 수 있는 존재로 발전시키기 위해서는 텍스트 및 이미지 데이터를 넘어 실제 로봇의 경험 데이터(Embodied Robot Data)를 학습해야 합니다.

범용적이고 유연한 로봇 정책(Generalist Robot Policies)의 개발은 로봇 시스템 발전에 중요한 의미를 가지며, 데이터 부족, 일반화 능력 부족, 강건성 부족 등의 문제를 해결할 가능성을 제공합니다. 자연어 및 컴퓨터 비전 분야에서 대규모 데이터로 사전 학습된 범용 모델이 특정 작업에 특화된 모델보다 더 뛰어난 성능을 보이는 것처럼, 로봇 학습에서도 다양한 로봇 데이터를 먼저 사전 학습한 후 특정 작업을 추가 학습하는 방식이 효과적입니다. 이를 통해 데이터 부족 문제를 해결할 뿐만 아니라, 다양한 환경에서의 일반화 및 강건성도 향상될 수 있습니다. 따라서 로봇 학습을 대규모 사전 학습으로 접근하는 것은 실제 환경에서 학습된 로봇을 현실화하는 데 중요한 역할을 하며, AI의 근본적인 문제 해결에도 기여할 수 있습니다.

그러나 Generalist Robot Policies, 즉 Robot Foundation Model을 개발하는 것은 몇 가지 도전 과제를 포함합니다. 첫째, 대규모 사전 학습의 효과를 극대화하려면 방대한 데이터셋이 필요합니다. 둘째, 다양한 데이터 소스를 효과적으로 활용하면서도 복잡한 물리적 환경과의 상호작용을 정교하게 표현할 수 있는 모델 아키텍처가 요구됩니다. 셋째, 적절한 학습 전략(Training Recipe)이 필수적이며, 이는 NLP 및 컴퓨터 비전 분야에서 대규모 모델의 발전이 사전 학습과 후속 데이터 구성 전략에 크게 의존해 온 점을 고려할 때 특히 중요합니다.

본 논문에서는 Robot learning의 세 가지 병목 현상을 해결하기 위해 프로토타입 모델 및 학습 프레임워크인 π0(파이-제로)를 제안합니다. π0는 사전 학습된 Vision-Language Model을 기반으로 구축되어 General knowledge, semantic reasoning, problem-solving abilities를 상속받으며, 이후 Robot action data를 추가 학습하여 Vision-Language-Action(VLA) 모델로 확장됩니다. 다양한 Robot data source를 통합하기 위해 Cross-Embodiment Training 기법을 적용하며, 이를 통해 단일 로봇 팔, 이중 로봇 팔, 이동형 조작 로봇 등 다양한 로봇 유형의 데이터를 하나의 모델로 학습합니다. 또한, Flow Matching 기반 Action Chunking Architecture를 도입하여 연속적 행동을 효과적으로 표현하고, 최대 50Hz의 제어 주파수로 세탁물 개기와 같은 고난도 작업을 수행할 수 있도록 설계되었습니다. 이를 위해 새로운 Action Expert 모듈을 도입하여, 표준 VLM을 Flow 기반 출력이 가능한 형태로 확장하였습니다.

모델 아키텍처뿐만 아니라, 적절한 학습 전략(Training Recipe)도 필수적입니다. π0의 학습 전략은 대규모 언어 및 Vision-Language 모델에서 사용되는 사전 학습(Pre-training)과 후속 학습(Post-training) 방식을 따릅니다. 먼저 다양한 데이터로 사전 학습을 진행한 후, 보다 정제된 데이터로 추가 학습하여 원하는 행동 패턴을 유도합니다. 정교한 조작(dexterity), 효율성(efficiency), 강건성(robustness)을 학습하기 위해 고품질 및 저품질 데이터를 조합하여 학습하며, 이를 통해 실수 발생 시 복구 및 수정 능력을 갖춘 유연하고 강건한 로봇 모델을 개발할 수 있습니다.

이 논문의 주요 기여는 다음과 같습니다.

1. VLM 사전 학습 및 Flow Matching을 기반으로 한 새로운 범용 로봇 정책 아키텍처를 제안
2. 로봇 기반 모델을 위한 사전 학습 및 후속 학습(Pre-training/Post-training) 전략을 실험적으로 분석
3. 모델을 다음과 같은 방식으로 평가

언어 명령(Language Commands)만으로 직접 테스트
Fine-tuning을 통한 다운스트림(Downstream) 작업 적용
상위 수준 의미 정책(High-Level Semantic Policy)과 결합하여, 중간 언어 명령을 생성하고 복잡한 장기 작업 수행

우리의 모델과 시스템은 기존 연구에서 제시된 다양한 아이디어를 활용하지만, 이러한 요소돌은 새로운 방식으로 결합하였으며, 실험을 통해 기존 로봇 기반 모델보다 훨씬 높은 수준의 정교함(dexterity)과 범용성(generality)를 입증하였습니다. 우리는 10,000시간 이상의 로봇 데이터로 사전 학습을 진행한 후, Fine-tuning을 통해 다양한 정교한 로봇 작업을 수행하도록 학습하였습니다. 평가 작업은 다음을 포함한다:

세탁물 개기(laundry folding, Figure 2 참조)
테이블 치우기(clearing a table)
전자레인지에 접시 넣기(putting dishes in a microwave)
계란을 상자에 쌓기(stacking eggs into a carton)
상자 조립(assembling a box)
장바구니에 물건 담기(bagging groceries)

2. RELATED WORK

본 연구는 대규모 로봇 학습과 다중 모달(Multimodal) 언어 모델을 기반으로 하며, Vision-Language Model(VLM)을 로봇 제어에 적용하는 Vision-Language-Action(VLA) 모델과 밀접한 관련이 있습니다. 기존 VLA 모델이 Auto-regressive Discretization을 사용하여 행동을 Text token과 유사한 방식으로 표현하는 반면, 본 연구에서는 Flow-Matching 기반 행동 생성 방식을 도입하여 최대 50Hz의 고주파수(Action Chunks)로 정교한 조작을 수행할 수 있도록 하였습니다. 이를 통해 Auto-Regressive VLA 모델이 고난이도 조작 작업에서 성능이 제한적임을 실험적으로 검증하였으며, 사전 학습된 VLM Backbone을 활용하여 기존 Diffusion 기반 행동 생성 연구들과 차별화하였습니다.

본 연구는 단순히 모델 아키텍처를 개선한 것 뿐 아니라, Robot Foundation Model을 위한 통합적인 프레임워크를 제안합니다. 즉, 모델 아키텍처 뿐 아니라, 사전 학습 전략, 후속 학습(post-training) 과정, 실제 로봇 실험까지 포함하는 완전한 학습 프레임워크를 제공합니다.

로봇 제어 외에도, 사전 학습된 언어 모델과 Diffusion을 결합하는 다양한 연구들이 존재합니다. 예를 들어, Diffusion과 Auto-regressive LLM을 결합하는 연구들이 진행되었습니다. 이러한 모델들은 주로 Image generation과 관련이 있지만, Action generation 모델은 이전 연구의 개념을 확장하여 적용하고 있습니다. Zhou et al.(Transfusion) 연구와 유사하게, Diffusion 방식(Flow Matching Loss)을 개별 Sequence 요소에 적용하여 학습을 진행합니다. 기존 Transformer decoder 모델에서 일반적으로 사용되는 cross-entropy loss 대신, Flow matching loss를 활용합니다. 이는 Liu et al. [29] 연구와 유사하게, Diffusion과 관련된 Token에 대해 별도의 가중치 집합을 사용합니다. 이러한 개념들을 VLA 모델에 통합하여, 우리가 아는 한 최초의 Flow Matching을 적용한 VLA 모델을 제안하였습니다. 이를 통해, High-Frequency Action Chunks 및 고정밀 로봇 제어(Dexterous Control)이 가능해졌습니다.

본 연구는 대규모 로봇 학습의 역사적 배경을 기반으로 하며, 초기 연구에서는 Self-supervised Learning 및 Autonomous Data Collection을 활용하여 잡기(Grasping)나 밀기(Pushing)와 같은 단순 작업의 데이터 수집에 집중하였습니다. 최근에는 보다 고품질의 로봇 제어 데이터셋이 수집되었지만, 주로 객체 재배치(Object Relocation)나 기본적인 가구 조작(Rudimentary Furniture Manipulation)과 같은 단순 작업 위주로 구성되었습니다. 정교한 조작 작업(Dexterous Tasks)은 상대적으로 작은 규모에서 연구되었으며, 일반적으로 10시간 미만의 학습 데이터만을 활용하였습니다.

본 연구는 보다 복잡하고 정교한 행동(Complex and Dexterous Behaviors)을 연구하기 위해 약 10,000시간 이상의 시연 데이터를 포함하는 대규모 데이터셋을 활용하고, Open-X Embodiment Dataset과 결합하였습니다. 이는 지금까지 수행된 로봇 학습 실험 중 가장 큰 규모이며, 이를 통해 정교한 사전 학습 및 후속 학습 전략이 효과적임을 입증하였습니다. 이러한 접근 방식은 대규모 언어 모델의 학습 전략과 유사하며, 사전 학습을 통해 광범위한 지식을 습득한 후, 후속 학습을 통해 정제된 데이터로 원하는 행동 패턴을 학습하는 방식을 따릅니다.

위 실험에서 다루는 작업들은 이전 연구보다 훨씬 복잡합니다. 최근 연구에서는 신발 끈 묶기(Tying Shoelaces) 또는 새우 요리하기(Cooking Shrimp)와 같은 정교한 작업들이 다루어졌지만, 물리적 정교함(Physical Dexterity)과 조합적 복잡성(Combinatorial Complexity)을 모두 포함하는,훨씬 긴 작업을 학습할 수 있음을 보여줍니다.

예를 들어:

세탁물 개기(Laundry Folding) 작업
- 로봇은 다양한 의류 아이템을 조작해야 하며,
- 처음 시작할 때 의류가 어떤 형태로 배치되어 있는지 알 수 없는 상태에서
- 여러 개의 의류를 연속적으로 개어야 한다.
테이블 치우기(Table Bussing) 작업
- 로봇은 새로운 객체의 종류(Novel Object Classes, 예: 쓰레기와 접시)를 구분해야 하며,
- 각 객체가 쓰레기통으로 가야 하는지, 설거지대로 가야 하는지를 올바르게 판단해야 한다.

우리는 단일 Cross-Embodiment 모델을 이러한 다양한 작업의 기본 모델(Base Model)로 활용할 수 있음을 보여준다.
우리가 아는 한, 본 연구는 End-to-End 로봇 학습 문헌에서 가장 긴 시간 동안 수행되는 정교한 작업을 성공적으로 학습한 첫 번째 사례입니다.

3. OVERVIEW

위 그림3 에서 모델의 Framework에 대한 Overview를 제공합니다. 학습 Framework에서는 먼저, 사전 학습 데이터셋을 구성(pre-training mixture)합니다. 이 데이터셋은 자체적인 정교한 조작 데이터셋(section V-C)과 OXE 데이터셋을 조합하여 생성됩니다.

정교한 조작 데이터셋:
- 7가지 서로 다른 로봇 설정에서 68개의 작업 수행 데이터를 포함
OXE 데이터셋:
- 총 22개의 로봇 데이터를 포함하는 오픈소스 데이터셋

사전 학습 단계(Section V-A)에서는 다양한 Language Labels 도 함께 사용합니다. 이는 Task Names와 segment annotations(일반적으로 약 2 초 길이의 하위 궤적에 대한 정밀한 라벨)이 포함됩니다. 사전 학습의 목적은 넓은 범위의 능력을 가진 base Model을 훈련 하는 것이며, 특정 작업에서 높은 성능을 내도록 최적화하는 것이 아닙니다. Base Model은 Language Commands를 따를 수 있으며, 다양한 작업을 기본적인 수준에서 수행할 수 있습니다. 복잡하고 정교한 작업을 위해 Post-training 절차(Section V-A)를 적용하며, 이 과정에서 고품질의 정제된 데이터(Curated Data)를 사용하여 특정 Downstream Tasks에 모델을 적응시킵니다. 연구진은 Efficient한 Post-Training과 High Quality의 Post-Training을 연구하며, 후자는 대규모 데이터셋을 활용하여 복잡한 작업(Ex: 세탁물 개기, 이동형 조작 등)을 학습하도록 합니다.

모델(Section IV)은 PaliGemma Vision-Language 모델을 기반으로 합니다.연구진은 PaliGemma VLM을 π0로 변환하기 위해, Flow Matching을 활용한 Action Outputs을 추가하여 Continous한 Action Distributions을 생성할 수 있도록 합니다. 이 설계에 대한 자세한 내용은 다음 section에서 설명합니다. 연구진이 PaliGemma를 선택한 이유는 편리하고, 비교적 작은 규모이기 때문이며, 실제 로봇에 Real-Time Control에 적합하기 때문입니다. 그러나 위 Framework는 어떤 사전 학습된 VLM과도 호환이 가능하다고 합니다.

IV. THE π0 MODEL

위 그림 3 에서 나타난 바와 같이, π0 모델은 기본적으로 Language model Transformer backbone을 기반으로 합니다. Standard late fusion VLM 방식을 따르며, Image Encoder는 로봇의 이미지 관찰 데이터를 Langauge Token과 동일한 Embedding space로 mapping 합니다. 우리는 이 backbone을 로봇 전용 입력 및 출력(즉, 고유 감각 상태(Proprioceptive State)와 로봇 행동(Robot Action)으로 확장하였습니다. π0 모델은 conditional Flow Matching을 사용하여 행동의 Continous한 Distribution을 모델링합니다. Flow Matching을 활용하면 모델이 높은 정밀도(High Precision)와 Multimodal modeling 능력을 가지게 되며, 특히 High-Frequency 정교한 작업(Dexterous Tasks)에 적합합니다. 연구진은 위 아키텍처를 Transfusion 모델에서 영감을 받았으며, Transfusion 모델은 단일 Transformer를 다중 목표(Multiple Objectives) 학습에 활용하며, Continous Outputs은 Flow Matching Loss를 통해 학습하고, Discrete Outputs은 Cross-Entropy Loss로 학습합니다. Transfusion 모델을 기반으로 로봇 전용 토큰(Action and State Tokens)에 대해 별도의 가중치 집합을 사용하는 것이 성능 향상에 기여한다는 사실을 발견하였습니다. 이 설계는 혼합 전문가 모델(Mixture of Experts,MoE)와 유사하며, 첫 번째 전문가(First Expert)는 이미지 및 텍스트 입력을 담당하고, 두 번째 전문가(Second Expert)는 로봇 전용 입력 및 출력을 담당합니다. 우리는 이 두 번째 가중치 집합을 "Action Expert"라고 부릅니다.

연구진은 데이터 분포 $p(A_t|o_t)$를 모델링하고자 합니다. 여기서, $ A_t = [a_t,a_{t+1},...,a_{t+H−1}]$ 는 H 개의 Action Chunk (H= 50) 그리고 $σ_t$ 는 로봇의 관찰 데이터(Observation)을 나타냅니다.

$σ_t$ 는 다음 요소로 구성됩니다. 여기서 $σ_t$ 는 다음과 같이 구성됩니다. $σ_t = [I^1_t,...,I^n_t, ℓ_t, q_t]$ 이며, $I^i_t$는 RGB 이미지 이며(로봇 당 2~3개의 이미지 사용) 언어 명령 $ℓ_t$ 는 Language Token Sequence를 의미하고, $ｑ_t $ 는 로봇의 Joint Angles Vector를 의미합니다. 이후 Linear Projection Layer를 통해 Language token과 동일한 embedding space로 mapping 됩니다.

이후 각 행동 $a_{t′}$ 에 대응하는 Action Token은 Action Expert(표준 VIM을 FLow 기반 출력이 가능한 형태로 확장하는 역할)를 통해 처리됩니다. 훈련 시에는 Conditional Flow Matching Loss를 사용하여 Action token을 학습합니다. 손실함수는 아래와 같이 정의됩니다.

여기서, τ는 Flow Matching Timestep( τ ∈ [0,1] ),의 범위를 갖습니다. 최근 고해상도 이미지 및 비디오 생성 연구에서는 Flow Matching이 단순 Linear Gaussian 또는 Optimal Transport Porbability path(확률 분포 간의 최적 이동 경로를 찾는 개념-> 최적의 mapping을 찾는 문제)와 결합할 때 강력한 경험적 성능을 달성할 수 있음을 입증되었습니다. 이는 다음과 같이 정의될 수 있습니다.

실제 학습 과정에서는, Random Noise $ε ∼ N (0,I)$ 를 샘플링하고, 노이즈가 포함된 행동을 생성합니다.

$A^τ_t = τA_t + (1 −τ)ϵ$ 네트워크 출력 $v_θ(A^τ_ t,o_t)$ 가 Denoising Vector Field $u(A^τ_t | A_t) = ϵ − A_t$ 를 따르도록 학습하는 과정을 거칩니다. Action Expert는 Full Bidirectional Attention Mask를 사용하며, 모든 Action token이 서로 attention을 주고 받을 수 있도록 합니다. 훈련 과정에서, Flow Matching Timestep τ는 Beta Distribution에서 샘플링되며, 초기(노이즈가 많은) Time step을 강조하는 방식으로 학습됩니다. 자세한 내용은 Appendix B를 참고 바랍니다.

추론시에는 $τ이후 Forward Eular Integration 방식을 사용하여 vector field를 적분합니다.

여기서 δ는 Integration Step Size를 의미합니다. 실험에서는 10 Integration Step을 사용했다고 합니다. (corresponding to $δ = 0.1$) 추론 과정은 효율적으로 구현될 수 있으며, prefix $o_t$에 대한 Attention Key 및 Value를 caching하여, 각 적분 스텝에서 action token에 해당하는 부분만 다시 계산 함으로 써, 속도를 최적화할 수 있습니다. 추론 과정의 세부 사항, 각 모듈별 추론 시간 등은 Appendix D에서 자세히 설명한다.

원칙적으로, 위 모델은 처음부터 학습(Initialized from Scratch) 되거나, 어떤 VLM backbone에서든 Fine-tuning 될 수 있습니다. 그러나 실제 환경에서는 PaliGemma를 Base Model로 사용하였습니다. PaliGemma는 30억 개의 매개변수(3B)를 가진 Open Source VLM이며, 모델 크기와 성능 사이의 적절한 균형을 제공합니다. 연구진은 Action Expert를 추가하여 3억 개의 매개변수(300M)을 추가하였으며, 이를 통해 총 33억개(3.3B)의 매개변수를 가지는 모델을 구축하였습니다. 모델 아키텍처에 대한 전체 설명은 Appendix B에서 제공됩니다.

Non-VLM baseline model.

연구진은 주요 VLA 모델 외에도, VLM을 Pretraining 하지 않은 Baseline model을 훈련하였습니다. 이 모델을 π0-small이라고 하며, 4억 7천개(470M) 매개변수를 가지고 있으며, VLM Pretraining을 사용하지 않습니다. 또한 VLM 없이 학습하는 데 유리한 몇 가지 구조적 차이점이 존재하며, 이러한 차이점은 Appendix C에서 요약합니다. 이 모델을 통해, VLM 사전 학습이 로봇 학습 성능에 미치는 영향을 평가하기위한 비교 실험을 수행하였습니다.

V. DATA COLLECTION AND TRAINING RECIPE

범용적인 Robot Foundation Models을 구축하려면, 표현력 있고 강력한 아키텍처 뿐 아니라, 적절한 데이터셋과 더 중요한 요소로 적절한 학습 전략이 필요합니다. LLM 학습이 일반적으로 Pre-training과 post-training으로 나뉘는 것처럼, 위 모델 역시 Multi-scale Training Procedure를 적용하였습니다.

사전 학습(Pre-training) 단계의 목표
- 모델이 다양한 작업(Task)을 학습하도록 노출하여 넓은 범위에서 적용 가능한 General physical Capabilities을 습득하는 것 입니다.
후속 학습(Post-training) 단계의 목표
- 모델이 원하는 다운스트림 작업(Downstream Task)을 더욱 능숙하고 자연스럽게 (Skillfully and Fluently) 수행하도록 하는 것 입니다.

Pre-training과 Post-training의 차이점을 보면 서로 목적이 다르므로 각 학습 단계에서 사용되는 데이터셋의 요구사항도 다릅니다. Pre-training Dataset은 가능한 한 많은 Task를 포함하여야 합니다. 또한 각 작업 내에서도 다양한 행동이 포함되어야 합니다. 하지만 Post-Training Dataset의 구성은 효율적인 작업 수행에 적합한 행동을 포함하여야 하고, 일관되고 자연스러운 전략을 학습할 수 있도록 해야합니다. 이를 직관적인 시점으로 바라보면 다음과 같습니다:

전 학습(Pre-training) 데이터는 다양한(하지만 품질이 다소 낮을 수 있는) 데이터를 포함하며,
- 모델이 실수를 복구(Recover from Mistakes)하고,
- 다양한 상황(Highly Varied Situations)을 처리할 수 있도록 돕는다.
- 이러한 상황들은 일반적으로 고품질의 후속 학습 데이터에서는 잘 등장하지 않는다.
후속 학습(Post-training) 데이터는 모델이 작업을 정확하고 능숙하게 수행하도록 가르친다.

즉, 사전 학습은 "모델이 실수를 극복하는 능력"을 키우는 역할을 수행하고, 후속 학습은 "모델이 정확하고 유창한 방식으로 작업을 수행하는 능력"을 키웁니다.

A. Pre-training and post-training

사전 학습 데이터셋 구성 개요는 위 그림 4에서 제공됩니다. 각 Training Example은 하나의 Time step에 해당하며, 각 샘플은 $(o_t,A_t)$ Tuple로 표현됩니다. 따라서 이번 논의에서는 데이터를 "Time step 개수"로 정량화 하여 설명합니다.

훈련 데이터의 9.1%는 Open-source Datasets 입니다.
- 포함된 데이터셋: OXE, Bridge v2, DROID
- 해당 데이터셋의 특징:
  - 로봇과 Task들은 일반적으로 1~2개의 카메라를 사용.
  - 2~10Hz의 Low-Frequency Control을 사용함.
  - 다양한 객체 및 환경을 포함함.

Dexterous Manipulation과 Complex Tasks을 학습하기 위해, 9억 300만개(903M) TimeStep의 자체 데이터셋을 추가 사용하였습니다. (Single-arm Data: 106M Timestep, Dual-arm Data: 797M Timestep) 이 데이터셋에는 68개의 작업(Task)이 포함되어 있으며, 각 작업에는 복잡한 행동(Complex Behaviors)으로 구성됩니다. (Ex: Bussing Task: 다양한 접시, 컵, 식기류를 분류하여 Bussing bin에 넣기, 다양한 쓰래기를 쓰래기통에 버리기 등)

본 연구에서 정의하는 "작업(Task)"의 개념은 이전 연구들과는 다릅니다. 기존 연구에서는, "명사(Noun) + 동사(Verb)" 조합을 사용하여 작업을 정의 했습니다. (e.g., “pick up the cup” vs. “pick up the plate”)을 개별적인 작업으로 간주하였습니다. 따라서 위 실험에서 사용하는 "Task"의 개념은 단순히 개수 이상의 광범위한 행동 범위를 포함합니다. 위 데이터셋에서 포함된 특정 로봇과 작업에 대한 자세한 내용은 Section V-C에서 논의합니다.

데이터셋의 크기가 다소 불균형하기 때문에(EX: 더 어려운 세탁물 개기 작업이 과도하게 포함되있음) 각 Task-Robot 조합에 대해 $n^{0.43}$의 가중치를 적용하였습니다. 여기서 n은 해당 조합의 sample 수를 나타내며, 과도하게 대표된 조합(Over-represented combinations)의 중요도를 낮추도록 조정하였습니다. 구성 벡터 $q_t$와 행동 백터 $α_t$는 항상 데이터셋에서 가장 큰 로봇의 차원을 따릅니다.(우리의 경우 18차원으로, 두 개의 6-DoF 로봇팔, 2개의 Gripper, mobile base 그리r고 수직으로 작동하는 몸체를 포함) 자유도가 더 낮은 로봇의 경우, 구성 벡터와 행동 벡터를 Zero-padding으로 맞추었으며, 카메라가 3개 미만인 로봇의 경우, 누락된 이미지 슬롯을 masking 처리하였습니다.

후속 학습(Post-Training)단계에서는, 모델을 특정 Downstream Application에 맞게 최적화하기 위해 더 작은 Task-specific dataset으로 fine-tuning을 수행하였습니다. 앞서 언급했듯이, 위 논문에서 정의하는 "Task"는 비교적 넓은 범위를 포함하며(Ex: "bussing" 작업은 다양한 종류의 객체를 조작하는 과정을 포함) 작업 별로 필요한 데이터셋 크기는 다르게 설정되며, 가장 단순한 작업의 경우, 5시간 분량의 데이터가 필요했고, 가장 복잡한 작업의 경우 100시간 이상의 데이터가 사용됩니다.

B. Language and high-level policies

Semantic reasoning과 High-level strategy이 필요한 더 복잡한 작업(Complex tasks), 예를 들어 Table 정리 등의 작업은, High-level policy를 활용하여 더 효율적으로 수행될 수 있습니다. High-level policy란 "테이블 정리(bus the table)"와 같은 고수준 작업을 "Pick up the napkin" 또는 "throw the napkin into the trash"와 같은 더 즉각적인 하위 작업(subtask)로 분해하는 방법입니다. 위 모델은 Language inputs을 처리하도록 훈련되었기 때문에, VLM을 활용한 semantic inference가 가능합니다. 이는 SayCan과 같은 LLM/VLM 기반 Planning methods와 유사합니다. 연구진은 여러 실험 작업에서 High-level Policy를 적용하여 high-level strategy를 보조하는 방식으로 모델을 활용하였습니다. 이에 대한 자세한 내용은 Section VI에서 논의 합니다.

C. Robot system details

UR5e

병렬 조형 그리퍼(parallel jaw gripper)를 장착한 로봇 팔
손목(wrist)과 어깨 위(over-the-shoulder)에 장착된 총 2개의 카메라
7차원 구성(Configuration) 및 행동(Action) 공간

이중 UR5e (Bimanual UR5e)

두 개의 UR5e 팔 사용
총 3개의 카메라 사용
14차원 구성 및 행동 공간

Franka

2개의 카메라 사용
8차원 구성 및 행동 공간

이중 Trossen (Bimanual Trossen)

ALOHA [4, 57] 설정을 기반으로 한 두 개의 6-DoF Trossen ViperX 팔 사용
손목(wrist) 카메라 2개 + 베이스(base) 카메라 1개
총 14차원 구성 및 행동 공간

이중 ARX & 이중 AgileX (Bimanual ARX & Bimanual AgileX)

두 개의 6-DoF 팔 사용 (ARX 또는 AgileX 팔 지원)
손목 카메라 2개 + 베이스 카메라 1개 (총 3개 카메라 사용)
14차원 구성 및 행동 공간
이 두 플랫폼은 운동학적 특성(kinematic properties)이 유사하므로 같은 범주로 분류

이동형 Trossen & 이동형 ARX (Mobile Trossen & Mobile ARX)

Mobile ALOHA [57] 플랫폼 기반
이동형 베이스(Mobile Base) 위에 6-DoF 팔 2개 탑재 (ARX 팔 또는 Trossen ViperX 팔 사용)
이동형 베이스가 비홀로노믹(Nonholonomic) 제약을 가지며, 추가적인 2개의 행동 차원을 포함
총 14차원 구성 및 16차원 행동 공간
손목 카메라 2개 + 베이스 카메라 1개 사용
운동학적 특성이 유사하여 같은 범주로 분류

이동형 Fibocom (Mobile Fibocom)

비홀로노믹(Holonomic) 베이스 위에 6-DoF ARX 팔 2개 장착
이동형 베이스가 3개의 추가 행동 차원을 포함 (2개는 평면 이동, 1개는 회전)
총 14차원 구성 및 17차원 행동 공간

그림 4에서 각 로봇별 데이터셋 비율을 확인할 수 있습니다.

VI. EXPERIMENTAL EVALUATION

위 연구에서의 실험 평가는 다음과 같은 방식으로 진행됩니다.

사전 학습된 기본 모델(Base Model, Pre-training Model)의 Out-of box Evaluation 실험
- Direct Prompting을 통해 대체 모델 설계(Alternative Model Designs)와 비교
세부적인 Fine-tuning 실험
- 위 모델의 다양한 Downstream 작업에 적용하여 성능을 평가.
- 정교한 조작(Dexterous Manipulation)을 위한 기존 방법들과 비교.

다음과 같은 연구 질문을 탐구합니다.

π0 모델의 사전 학습 성능 평가
- 사전 학습 데이터에 포함된 다양한 작업을 학습한 후, π0 는 얼마나 잘 수행하는가?
  - π0를 직접 평가(direct evaluation)하고, 다른 Robot foundation Models 와 비교.
π0 Language Commands 수행 능력
- π0는 언어 명령을 얼마나 잘 따르는가?
  - π0와 π0-small(더 작은 모델, VLM 초기화 없음)을 비교.
  - 사람이 제공한 명령(Human-provided commands) 및 고수준 VLM 정책(High-level VLM Policy)의 명령 수행 평가 (고수준 VLM 정책에 대한 내용은 Section V-B에서 논의됨)
정교한 조작(Dexterous Manipulation)을 위한 기존 방법과 비교
- π0는 기존의 정교한 조작을 위한 모델과 비교하여 어떻게 성능을 발휘하는가?
  - 사전 학습된 π0를 Downstream Task에 맞게 Fine-tuning.
  - Task-Specific Data만을 사용하여 청므부터 훈련.
  - 정교한 조작을 위한 기존 방법들과 비교하여, Model Architecture 및 Pre-training Procedure의 장점을 평가.
복잡한 Multi-Stage Tasks 적응 가능성.
- π0 모델을 복잡한 다단계 작업에 적응시킬 수 있는가?
  - π0를 세탁물 개기, 테이블 정리 등 복잡한 작업에 대해 Fine-tuning 적용.
  - 이러한 작업들은 5~20분 소요되며, 일부 작업은 High-Level Policy의 Guidance 필요.

A. Evaluating the base model

첫 번째 실험에서는, 사전 학습된 기본 모델(base model)을 후속 학습(post-training) 없이 평가하여, 다양한 작업을 수행하는 모델의 성능을 측정하였습니다. 이를 위해, 기존 연구에서 제안된 다른 Robot Foundation models와 비교하였습니다. (비교 대상: VLA(Vision-Language-Action) 모델, 동일한 사전 학습 데이터로 처음부터 훈련된 더 작은 모델들 포함)

위 그림 6에서 시각화된 작업 목록을 사용하였으며, 각 작업은 동일한 기본 모델에서 Language Commend를 통해 수행되었습니다.

Shirt Folding (셔츠 개기)
- 로봇이 평평한 상태로 놓여 있는 티셔츠를 접어야 함.
Bussing Easy (쉬운 테이블 정리)
- 로봇이 테이블을 정리하며,
- 쓰레기는 쓰레기통으로,
- 식기는 식기통으로 분류해야 함.
- 점수는 올바르게 분류된 객체의 개수를 기반으로 측정됨.
Bussing Hard (어려운 테이블 정리)
- 더 많은 객체와 복잡한 구성(configuration)이 포함됨.
- 예: 식기류가 쓰레기 위에 놓여 있거나, 객체들이 서로 겹쳐 있는 경우 포함.
- 일부 객체는 사전 학습 데이터에 포함되지 않음.
Grocery Bagging (식료품 포장)
- 로봇이 감자칩, 마시멜로, 고양이 사료 등 다양한 식료품을 가방에 담아야 함.
Toast Out of Toaster (토스트 꺼내기)
- 로봇이 토스트를 토스터에서 꺼내야 함.

기존 연구에서 사용된 모델과의 비교가 어려운 이유는 이러한 작업을 수행할 수 있는 기존 모델이 거의 없습니다. 따라서 가장 유사한 모델과 비교하여 성능을 분석하였습니다.

비교 모델 목록

OpenVLA
- 70억 개(7B)의 매개변수를 가진 VLA 모델.
- OXE 데이터셋 을 사용하여 학습됨.
- OpenVLA를 우리의 전체 사전 학습 데이터셋으로 학습.
- 하지만 OpenVLA는 액션 청킹(Action Chunking)과 고주파수 제어(High-Frequency Control)를 지원하지 않음.
Octo
- 9300만 개(93M) 매개변수를 가진 더 작은 모델.
- VLA 모델이 아니지만, 액션을 생성하기 위해 Diffusion 과정을 사용함.
- Flow Matching 기반 VLA와 비교하기 위한 참조 모델로 사용됨.
Compute Parity π0 (160K 스텝 훈련된 π0)
- OpenVLA와 Octo 모델의 훈련 스텝과 동일한 조건으로 제한하여 비교.
- 160K 스텝 훈련된 모델 (기본 모델은 700K 스텝 훈련됨).
UR5e 전용(OpenVLA-UR5e 전용 모델)
- OpenVLA를 UR5e 데이터에만 미세 조정(Fine-Tuning)한 버전.
- 다른 로봇 데이터 없이, 특정 로봇에서 최적 성능을 내도록 조정.
π0-Small (VLM 없이 훈련된 π0-Small, Section IV 참고)
- VLM 사전 학습 없이, 더 작은 크기의 모델.

평가 방법은 다음과 같습니다. 각 작업및 방법별로 10개의 에피소드를 수행합니다. 이후 각 에피소드는 성공 여부에 따라 점수를 받습니다. (완전 성공: 1.0점, 부분 성공: 비율 점수 반영) 평가 기준은 Appendix E에서 설명됩니다.

실험 결과는 그림 7과 같습니다. π0 모델이 모든 작업에서 가장 높은 성능을 기록한 것을 확인 할 수 있습니다.

Compute Parity π0 (160K 스텝 모델)도 모든 기준 모델보다 높은 성능을 기록하였습니다. 이는 더 적은 Training step에서도 강력한 성능을 보이는 것을 확인할 수 있습니다.OpenVLA의 경우, Auto-Regressive Discretization 방식을 사용하여 Action Chunking을 지원하지 않기에, 복잡한 조작에서 성능이 떨어집니다.Octo 모델의 경우, Action Chunking을 지원하지만, Representational Capacity가 제한적인 단점이 있습니다.

결론을 보면, 대규모 아키텍처(Large Expressive Architectures)와 Flow Matching/Diffusion 방식의 결합이 성능 향상에 중요한 영향을 미칩니다. 또한 VLM Pre-training 역시 성능 향상에 중요한 역할을 기여합니다.(π0-Small 모델조차 OpenVLA보다 성능이 높았지만, VLM을 포함한 π0 모델이 가장 뛰어남.) 마지막으로 π0는 사전 학습만으로도 다양한 로봇과 다양한 작업에서 강력한 성능을 발휘하는 모델임을 확인할 수 있습니다. 이는 강력한 Generalist Robot Policy로 활용 가능합니다.

B. Following language commands

다음 실험에서는, 기본 π0 모델을 Fine-tuning 하여 Language Commands를 수행하는 능력을 평가하였습니다. Fine-tuning 된 π0 모델을 π0 -Small 모델과 비교하였습니다.( π0-small 모델은 VLM initialization을 사용하지 않은 모델입니다.) 이 실험에서의 목표는 VLM Pre-training이 Language Instruction Following에 미치는 영향을 측정합니다. π0-small 모델은 VLM을 사용하지 않으므로, 이를 비교 대상으로 사용합니다. 하지만 π0-small 모델은 더 작은 모델이기에 공정한 평가가 어렵습니다. VLM initialization은 단순히 더 큰 모델을 과적합 없이 훈련할 수 있도록 해줄 뿐 아니라, Language instrction Following 능력도 향상시켜주기 떄문입니다. 그럼에도 불구하고, 이번 실험을 통해 π0 모델이 Language capabilities를 더 깊이 이해하는 데 도움이 되기를 기원합니다.

각 작업의 Language instruction은 집어야 할 객체와 해당 객체를 배치할 위치를 포함하며, 약 2초 길이의 Language label이 지정된 segment로 구성됩니다. 전체 작업은 이러한 여러 개의 segment로 이루어집니다. 이번 평가에서 다룰 작업들은 다음과 같습니다.

Bussing: 로봇은 테이블을 정리해야 하며, 접시와 식기류를 지정된 통에 넣고 쓰래기는 쓰래기통에 분류해야 합니다.
Table Setting: 로봇은 지정된 통에서 테이블 세팅을 위한 자리 매트, 접시, 식기류, 냅킨, 컵을 꺼내고, Language instruction에 따라 이를 배치해야 합니다.
Grocery bagging: 로봇은 커피 원두, 보리, 마시멜로, 김, 아몬드, 스파게티, 통조림 등의 실료품을 가방에 포장해야 합니다.

그림 8: The tasks in our language evaluation.

위 그림8에서는 평가에 사용된 언어 기반 작업을 시각적으로 나타내고 있으며, 평가 결과도 함께 제시합니다. 위 연구진은 총 5가지 조건에서 평가를 진행합니다. π0-flat(및 π0-small-flat)모델은 "bag the groceries"와 같은 전체 작업을 단순히 명령어로 입력받아 수행하며, 중간 단계 명령(Ex: 어떤 객체를 집어야 하는지, 어디에 배치해야 하는지)을 받으며, 이를 통해 보다 세부적인 언어 명령을 따르는 능력을 테스트합니다. 이 조건에서는 중간 명령이 작업 수행에 중요한 정보를 제공하지만, 모델이 이를 제대로 이해하고 따를 수 있어야 합니다. 마지막으로, π0-HL은 Section V-B에서 논의한 것처럼 고수준 VLM이 제공하는 명령을 따르는 모델을 평가하며, 이 조건에서는 인간 개입 없이 완전 자율 실행이 이루어집니다.

그림 9의 실험 결과에 따르면, 작업 당 10회의 평가를 평균한 결과 π0모델의 언어 명령 수행 정확도가 π0-small보다 현저히 높은 것으로 나타났습니다. 이는 더 큰 사전학습된 VLM 초기화가 모델의 성능 향상에 중요한 역할을 한다는 것을 시사합니다. 이러한 성능 향상은 전문가의 인간 지침(π0-human)과 고수준 모델 지침(π0-HL)에서도 동일하게 나타났으며, π0의 Language Instruction following ablility가 복잡한 환경에서도 더 나은 자율 실행 성능으로 이루어진 것을 보여줍니다.

D. Mastering complex multi-stage tasks

다음 실험에서는, 사전 학습 데이터와 상당히 다른 새로운 작업을 수행하는 모델을 평가하며, 이를 위해 모델을 다양한 양의 데이터로 Fine-tuning 합니다. 각 작업은 새로운 작업이지만, 사전 학습 데이터와의 차이 정도에 따라 "등급(Tier)"을 나누어 분류하였습니다. 그림 10에 나타낸 작업들은 다음과 같습니다.

UR5e stack bowls: 이 작업은 크기가 다른 네 개의 그릇을 쌓는 작업입니다. 이 작업은 사전학습 데이터와 테이블 정리(bussing) 작업과 유사하게 그릇을 집고 옮겨야 하므로 "easy" 등급으로 분류하였습니다. 훈련 데이터에는 다양한 종류의 그릇이 포함되어 있으며, 평가 시에는 학습된 그릇과 학습되지 않은 그릇이 혼합되어 사용됩니다.
Towel folding: 이 작업은 수건을 접는 작업입니다. 이 사전 학습 데이터에 포함된 셔츠 접기(shirt folding) 작업과 유사하므로 "easy" 등급으로 분류 하였습니다.
Tupperware in microwave: 이 작업은 전자레인지를 열고, 플라스틱 용기를 넣은 후, 닫는 작업입니다. 플라스틱 용기는 다양한 형태와 색상을 가지며, 평가 시에는 학습된 용기와 학습되지 않은 용기가 혼합됩니다. 용기 조작은 사전 학습 데이터에 포함되어 있지만, 전자레인지는 포함되지 않았기 때문에 "medium" 정도의 난이도로 볼 수 있습니다.
Paper towel replacement: 이 작업은 기존에 사용된 종이 타월 튜브를 제거하고 새로운 종이 타월 롤로 교체하는 작업입니다. 이러한 물체는 사전학습 데이터에 포함되지 않았으므로 "hard" 등급으로 분류하였습니다.
Franka items in drawer: 이 작업은 서랍을 열고, 물건을 넣고, 서랍을 닫는 작업입니다. 사전 학습 데이터에는 Franka 로봇을 사용한 유사한 작업이 포함되지 않았기 때문에 "hard" 등급으로 분류하였습니다.

연구진은 Fine-tuning 이후 모델을 OpenVLA 및 Octo와 비교하였습니다. 이 두 모델 또한 사전 학습 후 Fine-tuning을 수헹하는 방식이므로, 아키텍처가 아닌 특정 모델 자체를 평가하기 위해, OXE(Open-X-Embodiment) Dataset에서 학습된 공개된 사전 학습 checkpoint를 사용한 후, 각 작업에 맞게 Fine-tuning 하였습니다. 또한, ACT 및 Diffusion Policy와도 비교하였으며, 이 모델들은 작은 데이터셋을 이용한 정교한 조작학습을 위해 설계되었습니다. ACT 및 Diffusion Policy 실험에서 사용된 개별 데이터셋 크기와 유사합니다.

π0 모델을 사전 학습된 기본 모델에서 미세 조정 한 경우와, 처음부터 해당 작업에 맞게 훈련한 경우를 비교 평가하였습니다. 이 비교를 통해, π0 아키텍처 자체의 장점과 사전 학습 과정의 개별적인 이점을 분석하고자 합니다. 연구진은 VLM 초기화가 개별 작업을 위한 더 강력한 시작점을 제공해야 한다고 가정하며, 사전 학습 과정이 특히 작은 미세 조정 데이터셋에서 성능을 더욱 향상시킬 것이라고 기대합니다.

그림 11. Fine-tuning with varying amounts of data.

위 그림 11에서는 다양한 방법에 대한 모든 작업의 성능을 나타내며, 각 작업에 대해 10회의 실험을 수행한 평균 결과를 제공합니다. 또한, 모든 기준 모델을 stack bowls 및 Tupperware in microwave 작업에서 비교하였습니다. 그러나 OpenVLA 및 Octo는 성능이 크게 낮아, 실험 비용을 고려하여 단일 데이터셋 크기에서만 평가를 진행하였습니다.

실험 결과, π0 모델이 대부분의 작업에서 다른 방법보다 우수한 성능을 보였습니다. 흥미롭게도, 이전 모델들 중 가장 강력한 모델들은 해당 작업을 처음부터 훈련한 모델들이었습니다. 이는 사전 학습을 활용하는 것이 기존 접근 방식에서는 여려운 도전 과제였음을 시사합니다. Tupperware 작업에서 5시간 동안 학습한 π0 모델의 성능은 기존 기준 모델과 유사헀지만, 1 시간 동안 학습한 모델은 훨씬 뛰어난 성능을 보였습니다. 예상대로, 사전 학습은 사전 학습 데이터와 유사한 작업에서 더 큰 향상을 보였지만, 미세 조정 없이도 사전 학습되 모델은 종종 비 사전 학습 모델보다 두 배 이상 높은 성능을 기록한 것을 확인할 수 있었습니다.

D. Mastering complex multi-stage tasks

그림 12. We evaluate a range of complex and temporally extended tasks

위 마지막 실험에서는, Fine-tuning과 언어를 결합하여 복잡한 다단계 작업을 해결하는 방법을 평가합니다. 일부 작업의 경우, 사전 학습 데이터에 포함되어 있지만, 높은 수준의 숙련도를 달성하려면 미세 조정이 필요합니다. 반면, 일부 작업은 사전 학습 데이터에 포함되지 않았습니다. 그림 12에 나타난 평가 작업들은 다음과 같습니다.

Laundary folding: 이 작업에서는 정적인(비이동형) 로봇 시스템이 옷을 접어야합니다. 의류는 무작위로 구겨진 상태로 통 안에 있으며, 목표는 해당 아이템을 꺼내어 접고, 이미 접힌 옷 더미 위에 올려놓는 것입니다. 구겨진 세탁물의 초기 구성이 무작위이기 때문에, 정책은 모든 구성에 일반화할 수 있어야 합니다. 이 작업은 사전 학습에 포함되어 있습니다.
Mobile laundary: 그림 5에 나타난 Fibocom 모바일 로봇이 세탁물을 접는 작업입니다. 정적인 로봇과 마찬가지로 세탁물을 접는 도전과제가 있으며, 추가적으로 로봇의 방향과 이동을 제어해야 합니다. 이 작업은 사전 학습에 포함되어 있습니다.
Dryer unloading: 이 작업에서 Fibocom 모바일 로봇은 건조기에서 세탁물을 거내 빨래 바구니에 넣어야 합니다. 이 작업은 사전 학습에 포함되어 있습니다.
Table bussing: 다양한 새로운 객체가 포함된 복잡한 환경에서 테이블을 정리하는 작업으로, 사전 학습ㅈ 중 평가한 작업보다 훨씬 더 높은 난이도를 가집니다. 정책은 다양한 크기와 형태의 학습되지 않은 객체에 대해 일반화해야 하며, 그리퍼를 비틀어 큰 접시를 들어 올리거나, 얇고 깨지기 쉬운 유리잔을 신중하게 집는 등 정교한 조작을 수행해야 합니다. 또한, 로봇은 밀집된 환경에서 쓰래기와 식기를 분류하며, 작업 순서를 지능적으로 결정해야합니다. 예를 들어, 접시 위에 쓰래기가 있을 경우, 먼저 접시를 집어 그 위의 쓰래기를 떨어뜨린 후, 접시를 통에 넣어야 합니다. 이 작업은 사전 학습에 포함되어 있지 않습니다.
Box building: 로봇은 납작하게 접혀 있는 상자를 조립해야 합니다. 이 작업은 여러 주요 도전 과제를 포함하는데, 상자를 적절한 방식으로 접어야 하며, 로봇이 한쪽을 접는 동안 다른 부분을 눌러 고정해야 합니다. 또한, 양팔과 테이블 표면을 이용해 접는 과정을 보조해야 합니다. 경우에 따라 접는 과정에서 오류가 발생할 수 있으며, 이를 다시 시도하는 능력이 필요합니다. 이 작업은 사전 학습에 포함되지 않았습니다.
Packing eggs: 로봇은 그릇에서 여섯 개의 달걀을 꺼내 계란판에 정리한 후, 계란판을 닫아야 합니다. 달걀은 그릇 내부의 위치에 따라 적절한 방식으로 집어야 하며, 계란판의 빈 칸에 조심스럽게 배치해야 합니다. 달걀의 형태, 미끄러움, 신중한 배치 필요성 때문에 이 작업은 높은 난이도를 가집니다. 계란판을 닫는 과정에서도 양팔을 사용해야 합니다. 이 작업은 사전 학습에 포함되지 않았습니다.

그림 13. Post-training results on complex tasks

그림 13에서는 각 작업에 대한 평균 점수를 10번의 실험을 수행하여 나타냈으며, 평가 기준은 Appendix E에 설명되어 있습니다. 점수 1.0은 완벽한 수행을 으미ㅣ하며, 부분 적으로 완료된 경우에는 해당 비율에 따라 점수를 부여합니다. 예를 들어, 테이블 정리 작업에서 절반의 물체가 올바르게 분류되었다면 점수는 0.5가 됩니다.

이러한 작업들은 매우 어려우며, 기존 방법으로 해결할 수 없었습니다. 우리는 이 작업들을 비교 기준 모델 대신, 우리 접근 방식의 다양한 버전에 대해 비교하여 분석하였습니다.

Pre-training 후 Fine-tuning을 적용한 π0
사전 학습만 적용하고 미세 조정을 하지 않은 "out-of-box" π0
사전 학습 없이 미세 조정 데이터만으로 학습한 "scratch" 모델

결과에 따르면 π0는 이러한 작업들 중 다수를 성공적으로 해결할 수 있었으며, 전체적으로 사전학습과 미세조정을 결합한 접근 방식이 가장 우수한 성능을 발휘하였습니다. 특히, 더 어려운 작업에서는 사전 학습 모델을 사용하는것이 성능 향상에 크게 기여한다는 것으로 나타났습니다.

각 작업에서는 π0의 절대적인 성능은 난이도와 사전 학습에서 해당 작업이 얼마나 대표되었는지에 따라 달라지는 것으로 보입니다. 이 작업들은 복잡성을 더 깊이 이해하기 위해, 독자들은 논문과 함께 제공되는 실험 영상을 참고하는 것을 권장합니다. 연구진은 이러한 도전적인 작업들에서 학습된 정책을 통해 자율실행(Autonomous Performance)의 성취가 Robot Manipulation 분야에서 State-of-the-Art가 될 것이라고 믿습니다.

VII. DISCUSSION, LIMITATIONS, AND FUTURE WORK

위 실험에서는 Robot Foundation model을 훈련하는 Framework를 제시하였으며, 이를 π0라고 명명합니다. π0는 다양한 데이터에 대한 pre-training을 수행한 후, 이를 out-of-box evaluation 하거나 복잡한 downstream task에 맞춰 fine-tuning 하는 방식으로 구성됩니다. 위 실험은 손재주(dexteritty), 일반화(generalization), 시간적으로 확장된 다단계 행동이 결합된 작업들을 포함하여 모델을 평가하였습니다.

본 모델은 인터넷 규모의 Vision-Language Model을 사전 학습을 활용하며, high-frequency의 복잡한 action chunks을 표현하기 위해 Flow-matching 기법을 적용하였습니다. 사전 학습 데이터셋은 7가지 서로 다른 로봇 구성 및 68개의 작업에서 수집된 10,000시간 이상의 조작 데이터와, OXE, DROID,Bridge 등의 기존 대형 로봇 조작 데이터가 포함됩니다. 우리가 아는 한, 이는 로봇 조작 모델을 위한 가장 큰 규모의 사전 학습 데이터셋 입니다.

또한, 연구진은 Fine-tuning experiments는 20개 이상의 작업을 포함하며, 기존 VLA 및 손재주 조작을 위한 특화된 모델보다 우수한 성능을 보임을 입증하였습니다. 나아가, 세탁물 접기, 박스 조립 같은 고난도 작업을 가능하게 하는 post-Training 절차를 분석하였습니다.

우리의 프레임워크는 대형 언어 모델(LLM)의 학습 절차와 유사합니다. 일반적으로 LLM 훈련은 대규모 웹 데이터를 사용한 사전 학습과, 이를 사용자 지침에 맞추어 조정하는 Post-learning 과정으로 구성됩니다. 이와 유사하게, 위 실험은 로봇 기반 모델에서도 같은 현상이 나타날 가능성을 시사합니다.

사전 학습된 모델은 zero-shot 능력을 어느 정도 가지지만, 복잡한 작업(예: 세탁물 접기) 에서는 고품질 데이터로 미세조정이 필요합니다.
고품질 데이터만으로 훈련된 모델은 취약(brittle)하여 실수를 복구할 수 없으며, 사전 학습 모델만으로 실행된 경우(Post-training 없이 사용), 유창한 전략을 보여주지 못했습니다.

본 연구는 이번 연구가 Generalist robot foundation models로 가는 중요한 발판이 되기를 기대합니다. 우리의 실험 결과는 이러한 모델이 현실화 될 가능성을 시사하지만, 아직 해결해야할 한계점이 존재합니다.

사전 학습 데이터셋의 구성 최적화
- 우리는 이용 가능한 모든 데이터를 결합하여 훈련을 진행했지만, 어떤 데이터가 더욱 유용한지, 어떻게 가중치를 조정해야 하는지는 여전히 미해결 문제입니다.
완전한 신뢰성을 보장하지 못하는 모델 성능
- 일부 작업에서는 여전히 높은 신뢰도로 수행되지 않으며, 완벽한 성능을 달성하기 위해 필요한 데이터 양과 종류를 예측하는 방법이 명확하지 않습니다.
이질적인 로봇간의 지식 전이(Positive Transfer)의 한계
- 현재 연구는 다양한 작업과 로봇들 간의 일반화를 시도했지만, 자율주행, 네비게이션, 다리 로봇의 보행과 같은 전혀 다른 도메인에서도 적용 가능한지 향후 연구가 필요합니다.

'Vision Language Action model' 카테고리의 다른 글