본문 바로가기

분류 전체보기

(39)
[Paper Review] AHA: A Vision-Language-Model for Detecting andReasoning Over Failures in Robotic Manipulation 이번에 리뷰해볼 논문은 AHA: A Vision-Language Model- for Detecting andReasoning Over Failures in Robotic Manipulation 입니다. 이 논문은 Robotics Manipulation이 동작을 실패할 경우, VLM을 통하여 실패 원인을 분석하고 이를 Feedback을 해줌으로 써 실패 확률을 줄일 수 있다는 점에 대해 증명한 논문입니다. 이는 VLM,VLA,RL 등 다양한 모델에 적용이 가능하다고 합니다.  논문주소: https://aha-vlm.github.io/Aha_paper.pdf 깃허브 : https://aha-vlm.github.io/   Abstract Robot manipulation은 open-world에서 작업 실행 뿐..
Gemini Robotics: Bringing AI into the Physical World 3. Robot Actions with Gemini Robotics이 섹션에서는 Gemini Robotics를 소개합니다. 이는 Gemini Robotics-ER(Embodied Reasoning)의 파생 모델로, 로봇 행동을 직접 예측할 수 있도록 fine-tuned 된 모델입니다. Gemini-Robotics는 다양한 환경에서 정교한 작업을 해결하고, 다양한 로봇 구현체를 지원하는 범용 모델입니다. 먼저, 로봇 데이터에 대한 행동 레이블에 포함된 대규모 데이터셋과 기타 멀티모달 데이터를 사용하여모델을 훈련한 후, 모델을 분석합니다. 그 결과, 이 모델은 단기적인 정교한 작업을 바로 수행할 수 있으며, 자연어 지시를 정확히 따르고, Gemini-Robotics-ER의 generalization 능력을 ..
Large Language Diffusion Models Abstract Autoregressive models(ARMs)은 일반적으로 Large Language models(LLMs)의 근간으로 여겨집니다. 이에 연구진은 이러한 통념에 도전하며, Pre-training과 supervised finetuning(SFT) 패러다임에서 처음부터 학습된 diffusion model인 LLaDA를 소개합니다. LLaDA는 forward data masking 과정과 이를 역으로 복원하는 reverse 과정을 통해 분포를 모델링하며, vanilla Transformer를 이용해 masked token을 예측하도록 설계되었습니다. Likelihood bound를 최적화 함으로 써, 확률적 추론을 위한 정교한 생성 접근법을 제공합니다. 광범위한 벤치마크 실험에서 LlaDA..
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Modelsfor Robotic Manipulation 논문 주소: https://arxiv.org/pdf/2409.12514깃허브: https://tiny-vla.github.io/Abstract Vision-Language-Action (VLA) 모델은 visuomotor control과 instruction comprehension에서 높은 가능성을 보여주었습니다. 그러나 기존 VLA 모델은 느린 추론 속도와 방대한 로봇 데이터를 사전 학습해야 하는 문제로 실제 환경에서의 배포가 어렵습니다. 본 논문은 이러한 문제를 해결한 새로운 소형 모델인 TinyVLA를 소개합니다. TinyVLA는 더 빠른 추론 속도와 향상된 데이터 효율성을 제공하며, 사전 학습이 불필요합니다. 핵심 요소로는 강력한 Multimodal 모델로 초기화된 Policy backbone과..
π0: A Vision-Language-Action Flow Model for General Robot Control 이번에 리뷰 해볼 논문은 π0: A Vision-Language-Action Flow Model for General Robot Control 라는 논문입니다.  위 논문은 단일 로봇 팔(single-arm robots), 이중 로봇 팔(dual-arm robots), 그리고 이동형 조작 로봇(mobile manipulation) 등 다양한 로봇 플렛폼에 적용가능하다고 소개합니다. 논문 주소 : https://www.physicalintelligence.company/download/pi0.pdf 블로그 주소: https://www.physicalintelligence.company/blog/pi0 AbstractRobot learning은 유연하고 범용적이며 정교한 로봇 시스템의 잠재력을 극대화할 수 ..
[Paper Review] Robotic Control via Embodied Chain-of-Thought Reasoning 이번에 리뷰해볼 논문은 "Robotic Control via Embodied Chain-of-Thought Reasoning" 라는 논문입니다. 위 논문은 최근 많은 VLM에 적용되고 있는 "Chain-of-thought" 기술을 Embodied 환경에 적용시킨 논문입니다. 위 논문은 반드시 리뷰 뿐 아니라 부록에도 많은 내용이 나오니 Paper 까지 읽는 것을 추천드립니다! 논문 주소: https://arxiv.org/pdf/2407.08693Github: https://embodied-cot.github.io/Abstract기존 Robot control policies의 주요 한계는 훈련 데이터 외부에서 일반화가 어렵다는 점입니다. 최근 연구들은 Vision-Language-Action model (..
[Paper Review] 3D-VLA: A 3D Vision-Language-Action Generative World Model 이번에 리뷰해볼 논문은 3D-VLA: A 3D Vision-Language-Action Generative World Model 라는 논문입니다. 이는 기존 VLA 모델이 2D 입력에 의존하는 한계를 극복하고자, 3D 인지, 추론, 행동을 통합한 Generative world model을 제안합니다. 이를 통해 로봇이 3D 환경에서의 상호작용을 보다 효율적으로 학습할 수 있다고 합니다. 논문 주소: https://arxiv.org/pdf/2403.09631  Github: https://github.com/UMass-Foundation-Model/3D-VLA   Abstract최근 Vision-Language-Action(VLA)모델은 2D 입력을 기반으로 작동하며, 3D Physical world와의 ..
OpenVLA: An Open-Source Vision-Language-Action Model 이번에 리뷰해볼 논문은 OpenVLA: An Open-Source Vision-Language-Action Model 라는 VLA 논문입니다. 이전 RT-2논문과는 다르게, 이 논문의 경우, Open-Source로 Vision-Language-Action Model을 공개하였으며, 970k개의 실제 로봇 시연 데이터로 훈련 했다고 합니다.(Open X-Embodiment 데이터셋) 논문 주소:https://arxiv.org/pdf/2406.09246 깃 허브: https://openvla.github.io/ Abstract주어진 "OpenVLA"에 대한 내용을 요약해 드리겠습니다.OpenVLA는 오픈소스 VLA(Vision-Language-Action) 모델로, 인터넷 규모의 시각-언어 데이터와 97만..