VLA（Vision-Language-Action）模型

2025-11-11

VLA 模型是指视觉-语言-动作（Vision-Language-Action）模型，一种旨在将感知、自然语言理解和实体动作统一于一个计算框架的智能系统。具体来说：

VLA 模型的核心目标是解决具身智能（Embodied AI）领域中的挑战，即让机器人或任何具身智能体能够像人类一样，理解自然语言指令，感知真实世界，并基于这些理解和感知，生成并执行适当的物理动作来完成复杂任务。

阅读剩余

作者：姜九二

链接：https://www.jiangjianwu.cn/embodied_intelligence/1553/vla%ef%bc%88vision-language-action%ef%bc%89-%e6%a8%a1%e5%9e%8b.html

文章版权归作者所有，未经允许请勿转载。

THE END

VLA（Vision-Language-Action） 模型