Vision-Language Action Models : Concepts, Progress, Applications and Challenges--(2)
이어서 작성합니다. 2.2. Multimodal Integration: From Isolated Pipelines to Uni fied AgentsVLA 모델 출현의 핵심적인 진보는, 통합된 아키텍처 내에서 비전, 언어, 액션을 공동 처리하는 Multimodal 통합 능력에 있습니다. 전통적인 로봇 시스템은 지각, 자연어 이해, 제어를 별개의 모듈로 처리하며, 주로 수동 정의된 인터페이스나 데이터 변환을 통해 연결되었습니다. 예를 들어, 고전적 파이프라인에서는 지각 모델이 상징적 레이블을 출력하고, 이는 플래너가 액션으로 매핑하는 구조였으며, domain-specific hand engineering에 크게 의존했습니다. 이 방식은 적응성이 부족하고, 새로운 환경이나 모호한 상황에 취약했으며, 정해진 ..