首个本地运行具身 Gemini 模型发布:机器人迈向自主智能新时代

日期:2025-06-25 13:57:21 / 人气:7


一、Gemini Robotics On-Device:机器人的 “本地大脑”
谷歌 DeepMind 最新推出的Gemini Robotics On-Device,是 Gemini 家族首个可直接部署在机器人硬件上的视觉 - 语言 - 动作(VLA)模型。其核心优势在于:
无需联网的本地化运行:摆脱对数据网络的依赖,适用于网络中断或低延迟场景(如工业生产线、救援机器人),确保任务连续性。
高效泛化与任务适应:基于 Gemini 2.0 多模态推理能力,通过 50-100 个演示即可快速适应新任务,例如拉开拉链、折叠衣物等精细操作。
跨机器人形态适配:训练于 ALOHA 机器人,可迁移至双臂 Franka FR3 和 Apollo 人形机器人,处理未见过的物体和场景。
二、技术亮点:从模型设计到性能突破
轻量化与低延迟优化
专为机器人硬件设计,减少计算资源消耗,支持本地实时推理,响应速度远超云端依赖方案。
多任务泛化能力
在七项灵巧操作任务(如倒沙拉酱、画卡片)中,对分布外任务和多步骤指令的处理能力优于现有本地模型。
可微调的灵活性
开发者可通过 Gemini Robotics SDK 在 MuJoCo 模拟器中测试模型,并基于自定义数据微调,提升特定任务表现。
三、行业影响:具身智能的里程碑
机器人自主化升级:本地化模型使机器人能在复杂环境中独立决策,推动工业自动化、家庭服务机器人等场景落地。
降低开发门槛:SDK 与模拟器支持快速验证模型,50-100 个演示即可完成任务适配,缩短研发周期。
学术与产业联动:DeepMind 与加州大学伯克利分校等机构合作的 MuJoCo Playground 获机器人会议杰出论文奖,强化仿真与现实任务的桥梁。
四、Gemini 生态更新:免费额度调整与新功能
免费额度下调:Gemini 2.5 Flash 免费请求从每日 500 次降至 250 次,Gemini 2.0 Flash 从 1500 次降至 200 次,谷歌称这是新模型推出后的策略调整。
图像生成模型升级:Imagen 4 与 Imagen 4 Ultra 加入谷歌 AI Studio,支持高质量图像生成(如猫、机器人与外星人的彩色水墨画),现可免费试用。
五、未来展望:具身智能的商业化加速
Gemini Robotics On-Device 标志着机器人从 “远程操控” 向 “自主决策” 的关键跨越。随着模型在更多机器人形态与场景中的落地,具身智能可能成为下一个 AI 商业化爆发点 —— 从工厂产线到家庭服务,机器人将真正具备理解环境、执行指令的 “具身认知” 能力。

作者:汇丰娱乐




现在致电 xylmwohu OR 查看更多联系方式 →

COPYRIGHT 汇丰娱乐 版权所有