文 / 梁添 

来源 / 节点AI 

继宇树科技马年春晚用一场《武bot》震惊大众后,这不,才一个月的时间,中国机器人又引来大佬们集体点赞。

这次是同样在春晚亮相的银河通用机器人,最近联合清华大学、北京大学,以及上海期智研究院和上海人工智能实验室的联合团队(以下简称银河通用团队),发布了一项具身智能的最新研究视频,在 X 上快速获得了超过180万观看次数。

视频里,我们可以看到,机器人在与真人对打网球。

是的,你没看错,这不是故弄玄虚,网球落点变化莫测,机器人还可以随时小步快跑,调整身体姿态,判断网球落点,优雅挥拍,击回去,持续多个回合。

这一视频引得马斯克立即转发点赞,在评论区惊叹:Yeah;AI知名研究员Andrej Karpathy 更是直呼这是 AI 生成的。

对于吃瓜群众来说,机器人打网球,或许只是看热闹。

但小编特意深扒了一下论文,发现,这是仅用 5 小时碎片化数据训练而成的,特别的是,这并非是机器人执行的预设好的程序,而是机器人与真人的实时动态极限拉扯。也就是说,机器人已经初步实现了从“机械复刻”向“实时响应”的跨越。

缺数据也能解决真问题

传统机器人训练里,一个常见思路是先在真实环境中收集数据,再让机器人复现。不过,这种通用的方法依赖高质量、完整数据,对“打网球”这个场景来说几乎是不可能的。

收集真人打网球的数据有多难?

一般来说,真实网球运动中,球速往往在 15-30 m/s 之间,球场空间宽阔,球与球拍的接触时间仅仅只有极短的几毫秒。人们很难采到完整、精确的人体网球动作数据。真实场景中,往往球从四面八方来,也让预设程序的方式无法实现。

对此,银河通用团队提出了全球首个面向网球对抗的人形机器人全身实时智能规控算法——LATENT。

一句话概括:银河通用想到了一种方法,不需要完美完整的真实数据,也能让机器人快速学会在现实世界打网球。

小编翻看了论文,简单概括了一下方法,可分为三步。

首先,收集“碎片化”的人类网球动作。

银河通用请了 5 个业余网球玩家,在一个只有 3m×5m的动作捕捉区域里,然后用五小时时间,采集基础动作片段。敲黑板,这个空间比,网球场整整小了17倍,再加上时间少,大大降低了数据采集难度与成本。

其次,团队想了个新方法,并没有让机器人死记硬背这些动作,而是把这些基础动作压缩成技能库。机器人打网球的时候,不是直接复现之前的知识,而是自行组合。

最后,在强化学习阶段,团队给手腕的灵活性留下了空间,这样子,机器人就能在无编排的情况下,凭借之前学习的知识,接住网球,并击回去。

非常有意思的一点是,虽然这个项目来自银河通用团队,但他们在现实中大显身手时,使用的机器人却是来自宇树的 G1 人形机器人。

可能是具身智能的重要起点

或许有人会说,这个实验是不完美的。

比如,挥拍时机器人的手腕动作与真人有误差,还有人会问,这些机器人只是复现了一些打网球动作,并不是真正的与人类竞技,什么时候能替代真人陪练才算对大众有益。

这点,银河通用团队在论文中也承认,当前机器人只能回球,还不能在标准双人竞技的规则下真正完成比赛,还有机器人击球落点精度还不高,只能“打回场内”。

此外,LATENT 并不是靠调用机器人头部自带的视觉传感器,来判断球的位置,而是需要高度依靠场地里的“光学动作捕捉系统”,并且网球也得裹上反光贴纸。

不过,团队也提到,下一步的改进方向就是引入主动视觉,让机器人学会用眼睛,看到那颗飞速的网球。

看到这,小编想,短期内机器人走进千家万户或许不现实,但未来数年后,机器人进入真实生活工作场景或许真的不会太远。

这当然不是吹牛,在小编看来,银河通用的新算法,给具身智能的数据瓶颈提供了新的解题思路,其意义,远远大于机器人究竟是不是真的学会了打网球。

熟悉具身智能的朋友想必知道,围绕这个行业一直有一个巨大的争议,能不能泛化。通俗点说,春晚机器人打拳行云流水,但仍然会有人问,能不能帮我做家务?

这个问题背后的瓶颈,是数据荒。

众所周知,训练具身智能模型需要海量多模态数据,包括视觉、触觉等,不光是打网球,很多真实场景数据,都存在采集成本高、效率低的痛点,导致现有数据量与需求差距巨大。

与此同时,真仿真数据与真实世界存在鸿沟,导致模型泛化能力受限,难以适应复杂多变的实际场景。

而银河通用团队的方法,提供了一种可能——或许我们并不需要完美的数据,且无需预设编排,只要关键信息到位,后面修正和完成能力,或许可以交给强化学习。

也许这是一个里程碑时刻,未来可能在一些需要即时反应的场景,如跑酷,甚至工厂中,都有可能推广开来。

为什么是银河通用?

虽然这次打网球,宇树机器人提供了本体,但十分关键的大脑环节则是银河通用团队负责。

银河通用实现突破,也并不意外。

银河通用一直是具身智能企业中的"大脑派",强调仿真合成数据、具身大模型,其中90% 的训练数据来自虚拟仿真,成本仅为真实数据的约 1/100。

换句话说,银河通用也是务实派,一直试图围绕“机器人怎么解决复杂技能”这件事,搭建一套更低成本、更可扩展的训练体系。

在2025 年世界人形机器人运动会上,银河通用是少数全自主、零遥操的参赛选手之一,最终以大幅领先的成绩夺得应用场景比赛世界冠军。

这次 LATENT 的核心思路,其实就很符合银河通用一贯的路径:用更低成本的数据,拿到关键先验,再用算法把剩下的能力补出来。

从这个角度看,这次本体来自宇树,并不改变银河通用这项工作的核心价值。因为现在对于具身智能领域的企业来说,为什么会动、怎么学会动、能不能泛化到别的场景才是最关键的事。

而这,刚好是银河通用一直以来押注的路线。