본문 바로가기

Vision Language Action model

Gemini Robotics: Bringing AI into the Physical World

3. Robot Actions with Gemini Robotics

이 섹션에서는 Gemini Robotics를 소개합니다. 이는 Gemini Robotics-ER(Embodied Reasoning)의 파생 모델로, 로봇 행동을 직접 예측할 수 있도록 fine-tuned 된 모델입니다. Gemini-Robotics는 다양한 환경에서 정교한 작업을 해결하고, 다양한 로봇 구현체를 지원하는 범용 모델입니다. 먼저, 로봇 데이터에 대한 행동 레이블에 포함된 대규모 데이터셋과 기타 멀티모달 데이터를 사용하여모델을 훈련한 후, 모델을 분석합니다. 그 결과, 이 모델은 단기적인 정교한 작업을 바로 수행할 수 있으며, 자연어 지시를 정확히 따르고, Gemini-Robotics-ER의 generalization 능력을 이어받아 장면, 객체, 위치, 인스턴스의 시각적 변화의 강인함을 보입니다. 섹션 4에서는 Gemini Robotics의 한계를 테스트하고, 더 정교한 장기 작업과 극단적인 generalization 시나리오에 대해 특화된 능력을 보여줍니다. 또한, 새로운 정교한 작업에 대한 빠른 적용과 새로운 형태의 로봇 구현체에 대한 적응도 연구합니다. 

 

3.1. Gemini Robotics: Model and Data

Model. Gemini Robotics-ER와 같은 대형 VLM에서의 추론은 종종 느리며, 특별한 하드웨어가 필요합니다. 이러한 문제는 VLA모델에서 발생할 수 있으며, 추론을 로봇이 탑재된 시스템에서 실행하기에는 현실적이지 않거나, 그로 인해 지연(latency)이 실시간 로봇 제어와 호환되지 않을 수 있습니다. Gemini Robotics는 이러한 문제를 해결하도록 설계되었습니다. 이 모델은 두 가지 주요 구성 요소로 이루어집니다:  첫 번째로 VLA backbone이 cloud에서 호스팅됨.(Gemini Robotics backbone) 둘째, Local action decoder가 로봇의 onboard 컴퓨터에서 실햄됨(Gemini Robotics decoder) 

 Gemini Robotics backbone은 Gemini Robotics-ER의 distilled된 버전으로 구성되며, query-to-response latency가초 단위에서 160ms 이하로 최적화 되었습니다. local decoder는 backbone의 지연으로 보완합니다. backbone과 local decoder가 결합되면, 원시 관찰에서 저수준의 action chunks 까지의 end-to-end 지연은 약 250ms에 이릅니다. 여러 개의 행동이 포함된 chunks 에서는 유효한 제어 주파수가 50Hz로 설정됩니다. 전체 시스템은 backbone의 지연에도 불구하고 부드러운 동작과 반응적인 행동을 생성하며, backbone의 generalization 능력을 유지합니다. 모델 아키텍처의 개요는 위 그림 14에서 확인할 수 있습니다.

 

Data. 연구진은 ALOHA 2 로봇에서 대규모 텔레로봇 행동 데이터셋을 수집했습니다. 이 데이터셋은 12개월 동안 수천 시간에 걸친 실제 전문가 로봇 시연을 포함합니다. 이 데이터셋에는 다양한 조작 기술, 객체, 작업 난이도,  에피소드 길이, 정교함 요구 사항을 포함한 수천가지의 다양한 작업이 포함되어 있습니다. 훈련 데이터는 또한 웹 문서, 코드, 멀티모달 콘텐츠(이미지, 오디오, 비디오), 그리고 embodied reasoning 및 visual question answering 데이터를 포함하여 모델이 다양한 로봇 작업을 이해하고 추론하며 일반화할 수 있는 능력을 향상시킵니다.

 

Baselines. Gemini robotics는 두 가지 최신 모델과 비교합니다.: 먼저 𝜋0  re-implement인데, 이는 공개된 최신 VLA 모델인 𝜋0을 재구현한 모델로, 다양한 훈련 데이터 혼합에서 훈련되어 공개된 체크포인트보다 우수한 성능을 보입니다. 이에 따라, 실험에서는 이 모델이 가장 성능이 뛰어난 VLA 기준 모델로 보고합니다. 두 번째는 multi-task diffusion policy 인데, 이는 ALOHA Unleashed에서 영감을 얻은 모델로, 멀티모달 시연에서 정교한 기술을 학습하는 데 효과적입니다. Gemin Robotics는 클라우드에서 실행되는 VLA backbone과 local action decoder를 사용하며, 두 기준 모델은 local workspace에서 Nvidia RTX 4090 GPU를 사용하여 실행됩니다. 이 섹션에서 제시되는 모든 실험적 증거는 엄격한 실제 로봇 실험, A/B 테스트 및 통계적 분석을 기반으로 합니다.

 

 

3.2. Gemini Robotics can solve diverse dexterous manipulation tasks out of the box

 

 

첫 번째 실험 세트에서는 Gemini Robotics가 다양한 정교한 작업을 해결할 수 있음을 보여줍니다. 우리는 이 모델 성능을 short-horizon dexterous 작업에서 평가하며 이를 최신 multi-task baselines와 비교합니다. 모든 모델은 사전 작업 특화된 fine-tuning이나 추가적인 프롬프트 없이, 즉 out of the box 상태로 평가되며, 실험에서 section 3.1에서 설명한 데이터셋에서 샘플링한 20개의 작업이 사용됩니다. 다양한 장면 설정을 선택하였으며, 이들 중 일부는 그림 15에 시각적으로 나타나 있습니다. 작업 환경은 다음과 같은 일상적인 공간들을 포함됩니다: ("fold pink cloth”, “wrap the wire around the headphone”), while the baselines struggle with these tasks. For the more challenging tasks, (e.g., “open pink folder”, “insert red block”, “wrap the wire around the headphone”)  이 작업들은 요구되는 조작 수준도 다양합니다: 단순한 집기 및 옮기기 작업(예: 책상 중앙에서 신발끈 집기",  양손 협조가 필요한 변형(deformable) 객체 조작(예: "헤드폰에 전선 감기") 그림 15에서는 모델이 실제로 이 작업들을 수행한 rollout 예시들을 보여주며, 전체 적업 리스트는 Appendix C1.1에서 확인할 수 있습니다.

 

 

그림 16에서는 연구진의 모델과 기준 모델들 간의 성능 비교 결과를 요약합니다. Gemini Robotics 모델은 전체 작업의 절반 이상의 성공률 80% 이상으로 수행할 수 있음을 확인헀습니다. 특히, 변형 가능한 객체 조작 작업(예: " 분홍색 천 접기", "헤드폰에 전선 감기")에서 뛰어난 성능을 보였습니다. 반면, 기존 모델들은 이러한 작업에서 어려움을 겪었습니다. 보다 어려운 작업들(예: “분홍색 폴더 열기”, “빨간 블록 삽입”, “전선 감기”)의 경우, 성공률이 0이 아닌 유일한 모델은 Gemini Robotics였으며,  이러한 결과는 다음의 결합이 중요함을 보여줍니다: 고 성능 모델 아키텍처, 시각, 언어, 행동 등 모든 modality를 포괄하는 고품질의 다양한 데이터.  이는 multi-task policy learning에서 핵심 요소임을 시사합니다. 마지막으로, 가장 정교한 작업들(예: "신발끈 삽입")은 멀티테스크 설정만으로 는 학습하기에 여전히 매우 어려운 작업임을 확인되었습니다. 이에 대해 우리는 Gemini Robotics를 보다 어려운 장기 작업에 특화(specialization)시키는 방법을 section 4.1에서 논의합니다.

 

3.3. Gemini Robotics can closely follow language instructions

 

두 번째 실험 세트는 모델이 자연어 지시를 얼마나 잘 따를 수 있는지를 평가합니다. 총 25개의 자연어 명령어를 선택하여, 학습에 사용된 장면, 새로운 객체 및 용기(receptacle)가 포함된 보지 못한 장면(novel scenes)를 포함한 5 가지 다양한 평가 환경에서 실험을 진행했습니다. 이번 실험에서는 다음과 같은 정확한 지시어를 테스트합니다: 노란색 포스트잇 오른쪽에 파란색 클립을 놓아라" vs "(테스트 하지않음) 테이블을 치워라"와 같은 추상적인 명령. 그림 17에는 이러한 명령 수행에 대한 롤아웃 시각화와 binary task success rate가 나타나 있습니다. 

 

 우리의 실험은 strong steerability 능력이 고품질의 다양한 데이터와 능력있는 vision-language backbone의 조합에서 나온다는 것을 시사합니다. Gemini Robotics와 𝜋0 재구현 모델은 diffusion baseline보다 성능이 뛰어나며, 이는 강력한 language encoder가 필요함을 나타냅니다. 그러나, 특히 새로운 객체와 정밀한 지시가 있는 어려운 장면에서, Gemini Robotics가 두 가준 모델보다 더 효과적이라는 것을 알게 되었습니다.(그림 17) PaliGemma 기반의 𝜋0 re-implement 모델은 훈련 중 객체에는 올바르게 접근하지만, 서술적 언어 속성(예: " top black container" , "파란색 클립" )을 해석하는 데 어려움을 겪고, 보지 모한 객체가 있는 언어 지시어가 있는 작업을 해결하지 못합니다.

 

 

3.4. Gemini Robotics brings Gemini’s generalization to the physical world

 

로봇이 가정용 및 산업용 응용 분야에서 대규모로 배치되는데 있어 강력한 일반화 부족은 주요 병목현상 입니다. 마지막 실험 세트에서는 Gemini Robotics가 다음 세 가지 축에서의 변형을 처리하는 능력을 평가합니다. 이 축들은 이전연구에서 중요한 요소로 간주되었습니다. 

 

Visual Generalization: 모델은 작업을 해결하는 데 필요한 행동에 영향을 미치지 않는 장면의 시각적 변화에 대해 불변해야 합니다. 이러한 시각적 변화에는 배경, 조명 조건, 방해물 객체 또는 질감의 변화가 포함될 수 있습니다.

 

Instruction Generalization: 모델은 자연어 지시에서의 불변성 및 동등성을 이해해야 합니다. Section 3.3에서 연구된 세밀한 제어 능력을 넘어서, 모델은 의역(Paraphasing)을 이해하고, 타이포에 강하며, 다양한 언어와 지시의 구체성 수준에 적응할 수 있어야 합니다.

 

Action Generalization: 모델은 학습된 동작을 조정하거나 새로운 동작을 합성하는 능력을 가져야 합니다. 예를 들어, 훈련 중에 보지 못한 초기 조건(예: 객체 배치) 또는 객체 인스턴스(예: 모양이나 물리적 속성)에 대해 일반화할 수 있어야 합니다.

 

 

본 논문에서는 Gemini robotics와 기준 모델들의 일반화 성능을 다양한 작업 세트를 사용하여 평가했습니다. 이 벤치마크는 총 85개 작업으로 구성되며, 그 중 20%는 훈련 배포 범위 내 작업, 28%는 시각적 일반화, 28%는 지시어 일반화, 24%는 행동 일반화를 평가합니다. 그림 18~20은 작업 세트에서 세 가지 종류의 변형 예시를 보여줍니다. 작업에 대한 자세한 분석은 Appendix C.1.3에서 제공됩니다. 그림 21은 평균 진행 점수(progress scroe)을 보고합니다. 이 지표는 이진 작업 성공률보다 더 연속적인 측정을 제공하며, 각 작업의 정책 진행 상황을 시각화할 수 있는 더 세밀한 기준을 제공합니다. 특히 어려운 작업에 대해 더 많은 granularity를 제공합니다.(각 작업에 대한 진행 점수 정의는 Appendix C.1.3.3에 있음)  

 

Gemini Robotics는 기준 모델들보다 일관되게 우수한 성과를 보였으며, 세 가지 종류의 변형을 더 효과적으로 처리했습니다. Gemini Robotics는 기준 모델들이 실패하는 경우(예: 새로운 언어로 된 지시어에 대해 실패할 때)에도 Non-Zero 성과를 달성했습니다. 우리는 이러한 개선이 더 크고 강력한 VLM backbone과 Gemini 2.0에서 사용된 최첨단 Vision encoder를 포함한 다양한 훈련 데이터 덕분이라고 추측합니다.

 

4. Specializing and Adapting Gemini Robotics for Dexterity, Reasoning, and New Embodiments

Gemini Robotics 모델은 정교한 작업을 해결할 수 있는 강력한 로봇 범용 모델로, 즉시 다양한 작업을 해결하고, non-trivial 한 generalization 성능을 보입니다. 이 섹션에서는 모델의 한계를 더 테스트하고, 향후 범용 능력을 향상시킬 수 있는 가능성 있는 방법을 탐구합니다. 특히 다음을 다룹니다. 

 

  • 모델이 더 도전적인 장기적인 정교한 작업에서 특화를 통해 능숙해지는 능력을 테스트한다.
  • 의미론적으로 기반을 둔 embodied reasoning을 통해 일반화 능력을 최적화한다.
  • 새로운 작업 및 환경에 대한 빠른 적응 가능성을 탐구한다.
  • 새로운 로봇 구현체(embodiments)에 대한 적응을 탐구한다.

첫 번째와 두 번째 실험은 향후 모델 개선ㄷ에 중요한 정보를 제공하며, 세 번째와 네 번째 실험은 모델의 실제 배치(deployment)를 위한 바람직한 특성들을 제공합니다.

 

4.1. Long-horizon dexterity

 

 

Section 3.2에서 Gemini Robotics 모델이 단기적인 정교한 작업을 즉시 해결할 수 있음을 보였습니다. 여기서는 모델을 fine-tuning하여 정교하고 도전적인 작업을 해결할 수 있음을 보여주었습니다. 이러한 작업들은 범용 모델이 해결하기에는 어려운 수준의 작업들입니다. 특히, 본 논문에서는 6개의 작업을 선택하여 특화된 모델이 수행할 수 있는 다양한 능력을 시연합니다.

 

Make an origami fox: 로봇이 종이를 여우의 머리 모양으로 접어야합니다. 이 작업은 4 번의 정확한 접기를 요구하며, 각 접기는 정렬, 구부리기, 펀치, 주름잡기 등을 포함합니다. 작은 실수라도 회복 불가능한 실패를 초래할 수 있기 때문에, 정밀한 양손 협조를 필요로 합니다.

 

Pack a lunch-box: 로봇은 도시락을 싸는 작업을 해야 합니다. 먼저 빵을 좁은 비닐 봉지에 넣고 지퍼를 닫은 후, 에너지 바와 함께 도시락에 넣습니다. 그 후 포도를 용기에 담고 뚜껑을 닫은 후, 도시락에 넣습니다. 마지막으로 도시락 지퍼를 닫습니다. 여러 서브 작업은 정확한 양손 협조와 정밀한 그리퍼 동작이 필요합니다.

 

Spelling board game: 이 게임에서 사람은 로봇 앞에 물체의 그림을 그리거나 놓습니다. 로봇은 물체를 인식하고, 그 물체를 묘사하는 세 글자 단어를 알파벳 타일로 보드에 철자를 맞춰야 합니다. 이 작업은 시각적 인식과 Vison-Language-action 결합이 필요합니다.

 

Play a game of cards: 로봇은 자동 카드 딜러 기계를 사용하여 세 장의 카드를 뽑고 이를 다른 손으로 전달합니다. 그 후 사람이 카드를 내면, 로봇은 자신의 손에서 카드를 내고, 카드를 접습니다. 이 작업은 정교한 조작을 요구하며, 얇은 카드를 넘기거나 카드를 정확하게 선택하는 능력이 필요합니다.

 

Add snap peas to salad: 로봇은 금속 집게를 사용하여 스냅 완두콩을 집어 다른 그릇에 넣어야 합니다. 집게를 사용하는 작업은 양손 협조가 필요합니다: 한손은 집게를 잡고, 다른 손은 압력을 가해 완두콩을 집고 놓습니다.

 

Add nuts to salad: 로봇은 숟가락을 사용하여 수직 용기에서 견과류를 퍼서 샐러드 그릇에 넣습니다. 이 퍼기 동작은 정교한 조작을 필요로 하며, 높은 용기에서 견과류를 정확하게 수확하여 샐러드 그릇에 부드럽게 붓는 능력이 필요합니다.

 

본 논문에서는 각 작업에 대해 2000~5000개의 고품질 시연 데이터를 수집하고, Gemini Robotics 체크포인트를 Section 3에서 모델을 사용하여 각 특화 데이터셋으로 fine-tuning을 진행하였습니다. 또한, 이러한 특화 모델을 𝜋0 re-implement ㅈ재구현 전문가와, Multi-task diffusion 전문가와 함께 비교하였습니다. 두 기준 모델 모두 동일한 데이터셋으로 fine-tuning을 진행하였습니다. 모든 모델은 실제 환경에서 광범위하게 평가되었으며, 작업 성공률은 그림 23에 보고 됩니다.(진행 점수 결과는 그림 42 참조) 각 작업에 대해 20회 실험을 진행하였으며, 철자 맞추기 보드 게임은 12회의 실험을 진행했습니다.

 

우리의 전문가 모델은 평균 79%의 성공률을 모든 작업을 해결할 수 있었습니다. 특히 도시락 싸기 작업에서는 100% 성공률을 기록하며, 2분 이상 거리는 장기 작업을 완벽하게 수행했습니다. 철자 맞추기 게임에서는 인쇄된 이미지에서 단어를 정확히 읽고 철자를 맞췄습니다. 또한, 6개의 손그림 중 4개는 정확하게 철자를 맞췄습니다. 기준 모델들은 이미지를 인식하거나 단어를 정확하게 철자하는 데 실패했습니다. 단기적인 정교한 작업에서는 single task diffusion model이 경쟁렬을 보였으며, 최고의 결과를 달성하는 것으로 보고되었습니다. 그러나 철자 맞추기 게임, 종이접기,. 도시락 싸기 작업에서는 단일 작업 확산 모델이 성과가 좋지 않았습니다. 이는 장기 작업의 특성을 기인한 것으로 보입니다. Multi-task diffusion과 𝜋0 re-implement 모델은 같은 데이터로 fine-tunng 한 후에도 Gemini Robotics의 성과를 따라가지 못했습니다. Gemini Robotics 모델과 기준 모델들의 주요 차이는 더 강력한 Gemini 기반 backbone 이며, 이는 도전적인 작업에서 특화의 성공이 범용 모델의 강력함과 강하게 상관관계가 있음을 시사합니다. Gemini Robotics specialist model을 처음부터 훈련한 결과, 특화 데이터셋을 사용해도 이 작업들을 하나도 해결하지 못했습니다. 이는 고용량 아키텍처 뿐 아니라, Section 3에서 배운 다양한 로봇 행동 데이터에서 학습한 물리적 상식ㄷ이 도전적인 장기 작업을 해결하는 데 중요한 요소임을 보여줍니다.

 

4.2. Enhanced reasoning and generalization

 

Gemini Robotics-ER 의 새로운 embodied reasoning 능력- 예를들어 공간적, 물리적 이해, 및 세계 지식을 어떻게 최대한 활용하여 보다 복잡한 reasoning 일반화가 요구되는 환경에서 low level robot action을 유도할 수 있는지 탐구합니다. 이전 연구들은 visual robustness에서 일관된 성능 향상을 보였지만, 지금까지 VLA 모델은 추상적 reasoning 능력 유지 및 그것을 action generalization에 적용하는 데 있어 상당한 어려움을 겪고 있었습니다. 이를 해결하기 위해 section 3.1에서 로봇 행동 데이터셋을 re-labeling 한 버전을 사용하여 fine-tuning 프로세스를 설계하였습니다. 이 과정은 행동 예측을 trajectory 기반 reasoning 능력에 더 가깝게 연결하는 것입니다. Section 3.1의 local action decoder는 확장되어, 이 reasoning 중간 결과들과 연속적인 low label action으로 변환하며, 이는 훈련 분포에 존재하지 않는 실제 로봇 작업들에 적용됩니다. 주목할 점은, 이 실험에서의 도전적인 시나리오들은 Section 3.4에 다룬 분포 변화(distribution shifts)를 결합한 것으로, 지시어, 시각 정보, 행동에 대한 일반화가 동시에 요구된다는 점입니다. 연구진은 상위 수준 평가 범주를 설명하고, 전체 작업 지시어 및 설명은 Appendix D.2에 기재하였습니다.

 

평가 범주는 다음과 같습니다:

 

One-step Reasoning:

  • 지시어는 관심 객체나 조작 동작을 직접적으로 언급하지 않고, 속성이나 affordance로 간접적으로 지정합니다.
  • 예: " 오른쪽 아래에 있는 흰색 장난감 쥐를 같은 무더기에 분류해라: 모델은 흰색 쥐를 골라 흰색 쥐 무더기에 넣어야 하며, 갈색/회색 쥐는 distactior 입니다.
  • 해당 작업은 훈련 데이터의 라벨 분포에 존재하지 않습니다.

Semantic Generalization:

  • semantic 및 시각적 이해가 필요한 작업으로, Section 3.4보다 높은 수준의 일반화를 요구합니다.
  • 예: " 일식 생선 요리를 도시락에 넣어라": 모델은 다양한 distractor 속에서 스시가 목표 객체임을 판단해야 합니다.

Spatial Understanding:

  • 상대적/절대적 공간 개념에 대한 이해가 요구되는 작업입니다.
  • 예:"가장 작은 콜라캔을 도시락에 넣어라": 모델은 미니 사이즈 캔을 선택하고 도시락에 넣어야 합니다. 여기서 "가장 작은" 이라는 개념은 훈련 데이터의 행동 라벨 분포에 존재하지 않습니다.

 

기본 Gemini Robotics 모델과 reasoning이 향상된 버전의 실제 환경 평가에서의 성공률은 그림 24에 나타나 있습니다. 그본 모델도 여전히 합리적인 성능을 보이지만, reasoning이 향상된 버전은 단일 단계 추론이나 계획, 시멘틱 지식, 그리고 세계에 대한 공간적 이해가 요구되는 훈련 분포 밖 시나리오에서 성공률을 훨씬 더 높입니다. 또한 모델이 새로운 환경에서 자신의 기술을 적용하느 능력이 향상된 것 외에도, reasoning이 향상된 버전은 Gemini Robotics-ER의 사람에게 해석 가능한 Embodied reasoning trace와 밀접하게 닮은 중간 단게를 출력할 수 있기 때문에 해석 가능성도 증가한 것으로 볼 수 있습니다. 예시로, 우리는 모델의 내부 chain of thought의 일부로 활용된 keypoint 궤적의 시각화를 Fig. 25에 제시 합니다. 

 

4.3. Fast adaptation to new tasks

로봇 foundation model은 로봇 동작과 물리적 상호작용에 대한 미리 획득된 상식을 빠르게 활용하여 빠른 작업 학습이 가능하다는 가능성을 제시합니다. Section 4.1이 장기적이고 매우 정교한 작업에 대한 특화를 탐구했다면,  본 Section에서는 그 반대편 스펙트림, 즉 일반화된 모델이 새로운 단기 작업에 얼마나 빠르게 적응할 수 있는지를 조사합니다. 구체적으로, 앞서 언급한 장기 작업으로부터 8개의 하위 작업을 선택하고(세부 내용은 Appendix D.3.1에 있음), section 3의 체크포인트를 fine-tuning할 때 사용되는 데이터 양을 다양화하였습니다. Fig. 26은 작업별로 시연 횟수에 따른 평균 성공률을 보여 줍니다.

 8개의 작업 중 7개에서, fine-tuning은 최대 100개의 시연만으로도(작업의 복잡도에 따라 15분에서 1시간의 시연에 해당) 70% 이상의 성공률을 달성하는 데 효과적이었다. 두 개의 작업에서는 Gemini Robotics가 100%의 성공률을 달성했다.

기준 모델들은 더 쉬운 작업에서 경쟁력을 보였는데, “상추 붓기(Pour lettuce)” 작업을 더 효율적으로 학습했으며, “샐러드 드레싱(Salad dressing)”과 “카드 뽑기(Draw card)” 작업에서는 𝜋0 재구현 모델이 약간 더 높은 성공률을 보였다. 그러나 “종이접기 여우 첫 번째 접기(Origami fox first fold)” 또는 소수의 시연만 주어진 도시락 작업(lunch-box tasks)처럼 더 어려운 작업에서는 성능이 좋지 못했다.

이는 강력한 VLM backbone이, 풍부하고 다양한 로봇 행동 데이터를 물리적 상호작용에 대한 상세한 이해로 더 효과적으로 변환할 수 있어야만 새로운 작업에 대한 빠른 학습이 가능하다는 또 하나의 근거가 된다.

 

4.4. 새로운 구현체에 대한 적응 (Adaptation to new embodiments)

예비 실험으로, 우리는 ALOHA 2에서 수집한 행동 데이터로 학습된 Gemini Robotics 모델이, 대상 플랫폼에서 소량의 데이터를 통해 새로운 구현체를 얼마나 효율적으로 제어할 수 있는지에 대해 탐구하였다.
우리는 평행 그리퍼를 가진 양팔 Franka 로봇과, 정교한 다섯 손가락 손을 가진 풀사이즈 휴머노이드 로봇인 Apptronik의 Apollo를 대상으로 실험하였다. Fig. 27은 이 두 로봇에서의 작업 예시를 보여준다.

fine-tuning 이후, Gemini Robotics의 in-distribution 작업에 대한 성공률은 state-of-the-art 단일 작업 diffusion 정책 모델보다 동등하거나 약간 더 우수한 것으로 나타났다. 예를 들어, Franka 양팔 로봇에 대해 적응된 Gemini Robotics 모델은 모든 평가 작업을 평균 63%의 성공률로 해결할 수 있었다(작업 세부 정보 및 성공률 플롯은 Appendix D.4에 있음).

우리는 또한 이 적응된 모델이 시각적 교란, 초기 조건의 변화, 객체 형태의 변화에 대해 얼마나 강건한지도 추가로 조사하였다(Appendix D.4.2 참조). Fig. 28에서 보여지듯, Gemini Robotics는 이러한 시각 및 행동 일반화 테스트에서 단일 작업 diffusion 기준 모델을 크게 능가하였다.

놀랍게도, 이는 Gemini Robotics 모델이 새로운 구현체에 대해 fine-tuning된 이후에도 강건성과 일반화 능력을 서로 다른 구현체 간에 전이할 수 있음을 시사한다.