出品 | 网易智能

作者 | 小小

编辑 | 王凤枝

在2026年GTC两小时主题演讲引爆全场后,英伟达创始人兼CEO黄仁勋18日再度现身GTC 2026现场,面向金融分析师举行了一场闭门问答会。面对诸多尖锐提问,“黄教主”不仅展现出对行业趋势的深刻洞察,更罕见地披露了关于下一代架构的万亿级市场预期。


黄仁勋在问答中提出了一系列观点。他认为,AI产业正迈入“第三个拐点”,从生成式AI向“智能体系统”阶段演进,AI将不再仅是回答问题,而是能够自主执行复杂任务。

这一转变将彻底重塑计算产业形态:计算机正从单纯的工具演变为“制造设备”,其核心产出物是具有经济价值的Token。他将其定义为“AI工厂”模式,并强调衡量算力优劣的标准已转向“单位功耗下的Token生成效率”。

在黄仁勋看来,驱动这座“AI工厂”高速运转的核心操作系统,正是当下火爆的开源项目OpenClaw。他毫不讳言地指出:“今天,全球每家公司都必须确立自己的OpenClaw战略。”

黄仁勋算了一笔“经济账”:他曾浏览过一篇Reddit帖子,发帖人的Claw智能体一天内竟消耗了5000万个Token。听起来犹如天文数字,但折算下来不过区区50美元。倘若这50美元能让智能体替你从事极具生产力的工作,这笔投资简直微不足道。未来的常态将是:一位日薪数千美元的精英,统领着一支庞大的智能体大军,为每个智能体分配50美元的日预算,从而将个人生产力推向极致。这一场景很快便会司空见惯。

事实上,在英伟达,他们已然将此付诸实践。黄仁勋坦言:“对于那些我每天支付数千美元薪酬的员工,我巴不得他们每天消耗的Token远超50美元。我期望他们能运筹帷幄,管理一整支智能体编队来代劳繁杂任务。”他还称,真心期盼一位日入2000美元的干将,每天能豪掷1000美元在Token消耗上。

正是基于这种由智能体引爆的算力渴求,面对分析师对市场天花板的疑虑,黄仁勋再次重申了其预测:基于Blackwell和下一代Rubin架构,英伟达在2027年前的明确可见市场需求已超过1万亿美元。他进一步展望,传统的2万亿美元软件许可行业,正加速向基于AI智能体的Token转售模式转型,潜在市场规模有望扩张至8万亿美元。

这场对话不仅勾勒出英伟达的雄心,也揭示了AI底层商业逻辑即将迎来的根本性变革。

以下为黄仁勋记者问答会全文:

01重新定义AI时代:计算机不再是工具,是制造设备

主持人:大家早上好。希望各位喜欢昨天GTC的主题演讲,虽然时间稍长,但我认为它为我们做了一次极佳的总结。接下来,我们将利用这段时间聚焦各位的需求,解答大家可能存在的其他疑问。我们将先过几张幻灯片,随后开放提问。现在,把时间交给黄仁勋。

黄仁勋:正如我昨日所述,AI的发展正经历三个关键的转折点:第一个是生成式AI,第二个是推理阶段,而我们现在正处于第三个即智能体系统。每一次转折都建立在上一代的基础之上,但智能体系统的本质突破在于“自主性”。过去,AI只是回答问题;现在,你可以为其设定目标,它便能真正着手执行任务。

任务可以是什么?最典型的一个应用就是编写软件。如今,贵公司的工程师,当然也包括我们公司的,每天都在高频使用智能体系统。过去,工程师上班只需一台笔记本电脑;而现在,他们需要笔记本电脑,外加Token。Token预算已成为切实存在的资源。试想,如果你雇了一位年薪30万美元的工程师,而他在工作中竟完全不消耗任何Token,你恐怕得问问他:你到底在忙些什么?所以结论很清楚:每个工程师都将消耗大量Token,而这些Token必须被生产出来。

这就引发了一场根本性变革:过去计算机只是工具,而未来的计算机将是制造设备。它们和ASML的光刻机没什么两样,都在生产某种可供出售的商品。就像很久以前的发电机生产电力一样,这些都是制造系统。其能效与生产效率将直接决定你的营收与竞争力。

第三个转折点已经到来。以OpenClaw项目为例,很多人初见其开源版本时,还以为那是个玩具。但若你退一步,从第一性原理出发去思考,便会发现OpenClaw本质上就是一台计算机,它是AI计算机的操作系统,也是一台个人AI计算机。它具备计算系统的所有属性:资源管理、任务调度、执行输入输出、网络连接等,它拥有基础计算机所需的一切。那条陡峭的增长曲线已说明一切,这才是真正值得瞩目的焦点。

所以,今天每家公司都需要思考一个问题:你的OpenClaw战略是什么?过去,我们必须制定Linux战略、互联网战略、移动云战略;而如今,每家软件公司都必须确立OpenClaw战略。这件事的重要性怎么强调都不为过。

在此背景下,我想更新一下去年做出的某项预测。一年前我曾提到,我们对Blackwell和Rubin架构到2026年的出货量有着极高的业务可见度,包括明确的采购订单和需求,当时的预期规模约为5000亿美元。很多人当时对此有疑问,想知道最新进展。现在是3月,我们距离2027年底还有很长时间。正因为我们在建设的是基础设施和工厂,而每个人的交付周期都很长,所以我希望他们尽早下单以确保供应。

今天我可以更新的数据是:我们对Blackwell加Rubin的出货价值(仅限这两款产品)突破1万亿美元,有着极强的信心与可见度。这不是一个浮动的估值,不是精确到小数点后94位的数字,我们也没有在锱铢必较地算零头。我的意思是,针对超过1万亿美元的Blackwell加Rubin市场,我们抱有强烈的预期。为什么只说Blackwell和Rubin?因为去年我提的时候只谈了这两款芯片。今年我们新增了Groq、独立的CPU还有很多其他产品,但为了口径一致,我今天的更新只聚焦于Blackwell和Rubin。

所以我需要把话说清楚:我所说的这1万亿美元,只包括Blackwell和Rubin这两款产品。不包括Feynman,不包括Rubin Plus或Rubin Ultra,不包括Vera Standalone,也不包括Groq。仅仅是Blackwell加Rubin,我们就已经有了超过1万亿美元的采购订单,这是基于高度确信的需求、清晰的可见性和扎实的预测得出的结论。

我们一直在达成交易、完成出货,而且从现在到2027年底,我们预计还会达成更多交易、预订更多订单、出货更多产品。原因很简单:我们会一直工作到那一天。英伟达有一个独特的优势。因为我们设计和交付的是高度复杂的整体系统,我们可以在同一个季度内完成从赢单、预订到出货的全过程。如果你做的是ASIC(专用集成电路),你做不到这一点。如果你现在还没看到需求,就不可能赶在2027年底前出货。但我们不同。

我们提前建立库存,构建了完整的供应链,我们必须把这个优势用足。当前客户对算力如饥似渴,如果他们在最后一刻突然提出“我们还需要更多”,我希望我们永远有底气回应:“没问题,我们乐意效劳。”更何况,我们还在开拓新客户、新市场、新区域,这些甚至还没有算进这1万亿美元里。毕竟,距离2027年底还有21个月。因此,我希望大家真正理解这1万亿美元意味着什么:它绝非终点,它本身将持续增长,未来势必会超越这一数字。

02推理经济学:最贵的计算机,最便宜的Token

我再补充几点。

2025年对我们来说是意义非凡的一年,因为它是“推理之年”。在这一年里,我们帮助市场理清了一个核心逻辑:计算机的售价与Token的成本之间并无必然联系。人们买这些计算机是为了生产Token,而Token的生产效率至关重要。如果你买了一台昂贵的计算机然后转手卖掉,那它确实只是“昂贵”;但若你用它来生产Token,它的“贵”则源于其技术足够先进,能以惊人的效率产出Token。这意味着你完全可以同时拥有“最昂贵的计算机”与“成本最低的Token”,这正是我们每天在做的事,也是我们创造独特价值的根源。

这种价值差,最终体现在两个指标上:每秒生成的Token数以及每瓦功耗产出的Token数。我们每一代产品都在实现指数级的性能跃升,以至于客户宁愿出高价购买我们的下一代产品,也不愿低价购入上一代。Vera Rubin一旦上市,他们便会立刻切换。因为尽管价格更高,其创造的价值却大得多。我之所以将这两个系统放在一起比较,是因为它们已成为全球事实上的标准。在无法超越这两个系统之前,购买其他产品毫无意义。然而想要超越它们难如登天,因为摩尔定律无法再赋予你35倍的性能提升,单靠制造更快的芯片已无济于事,你必须打造出“海量的、速度更快的芯片群”。

作为推理之年,2025年我们也切实证明了自身在推理领域的领导力,从训练到后训练,再到推理,全面领跑。

去年我们还完成了另一件大事:大幅拓宽了平台的模型覆盖广度。我们新增了对Anthropic的支持,这是全新的举措;新增了对Meta Superintelligence Labs的支持,这是一个拥有全新计算需求的全新实体。众所周知,去年开源软件与开源模型真正迎来了爆发。时至今日,若按生成的Token总量计算,位列第一的是OpenAI,第二名是所有开源模型的总和,第三是Anthropic,第四是xAI。继续梳理下去你会发现,英伟达正是全球开源模型的最佳运行平台,这也解释了为何我们在如此庞大的基数之上,依然能实现加速增长。

最后我想强调一点:我们极为珍视与超大规模云厂商的合作关系,但这绝不仅仅是简单的买卖关系。我们也在帮他们“获客”。既然CUDA运行在他们的云端,就意味着所有CUDA开发者、AI原生初创企业以及与我们合作的大型企业都会随之迁移。我们每推动一家大企业或初创公司落地,都会引导他们到某家云厂商处进行托管。从某种意义上说,我们堪称全球各大云厂商最顶尖的销售团队之一。

你去展区看看就明白了:AWS的展位规模庞大,Google Cloud、Azure、Oracle、CoreWeave的展位同样宏大。他们为何汇聚于此?正是为了向我们的开发者推销产品。而我们的开发者只熟悉一种编程方式,那就是CUDA。当他们完成开发并寻求落地时,自然会选择入驻某位云服务提供商合作伙伴的云平台。这便是我们与超大规模云厂商之间最真实的关系。

03拆解60/40客户版图:英伟达成了云厂商最好的销售团队

最后,我想重点谈谈客户结构的另一面。

我们与超大规模云厂商的合作固然紧密,贡献了约60%的业务份额。但许多人忽视了另外的40%,即来自区域云、工业、企业及本地部署的庞大需求。戴尔、联想、惠普正在快速增长,所有的ODM也在快速增长。这部分业务,正在流向图表右侧的那40%。

这40%意味着什么?倘若没有英伟达的全栈能力,没有我们构建完整“AI工厂”的实力,没有全球所有开源平台皆运行于英伟达之上这一铁律,你根本无从触及这片市场。左侧那60%的份额中,很大一部分归功于我们将开发者引流至云端;而右侧这40%的阵地,如果仅仅是一家芯片制造商,绝对是100%无能为力的,因为这部分客户不买芯片,他们买的是平台。

不知我是否将这一信息传达清晰了?准确理解我们的业务结构至关重要。我们将这一切深度整合,并统称为“加速计算”。

明年我们可能会换一种方式拆分业务,大概就像这张图表展示的那样:超大规模占60%,但请记住,其中很多客户是我们带上云的。右侧那40%,只做芯片的公司永远够不着。

一张幻灯片里塞满了三重信息,可能让大家有些应接不暇。我本该将其拆分为三张的,尽管那样演讲可能会拉长到七个小时,但也绝对物超所值。

好了,就这些。谢谢。

以下为问答环节:

04 OpenAI和Anthropic的收入,你们低估了

问:首先感谢你们提供这次交流机会。祝贺你和你的团队。现在大家都理解了推理的重要性,但我认为市场最大的疑虑是:投入到底值不值?超大规模企业能否通过API和云服务获得足够的收入增长,来证明当前资本支出的合理性?我自己做了一些测算,目前他们的资本支出比云API收入高出20%。Jensen,你看到的情况是什么?你曾说过,你的客户,尤其是那些支撑Anthropic和OpenAI的超大规模企业,会带来巨大的现金流上行空间。那么,我们什么时候能看到这些收入真正兑现?我知道这个问题对您而言略显棘手,毕竟您还要兼顾对其他公司的指引。但如果我们能看到这种上行空间,市场对你们的信心会强得多,大家才会相信这种建设是可以持续的。那么,收入上行何时出现?我们怎样才能更有信心?

黄仁勋:我多希望这些公司已经上市,这样大家就能真切地看到我眼中的景象了。纵观历史,从未有过任何一家未上市的初创企业,能实现每周狂揽十亿乃至二十亿美元的营收增量。而他们当下正在经历的,正是这种堪称恐怖的量级增长。

记住我刚才说的是“每周”。整个IT软件行业的规模约为2万亿美元。在我看来,这一行业不会被颠覆,而是将迎来彻底的重塑。我坚信,这2万亿美元IT版图中的每一家企业,都会将OpenAI、Anthropic及各大开源模型整合进来,接入名为OpenClaw的开源软件中。随后,我们会将其打造为企业级版本,也就是NeMoClaw。借此,你瞬间便能拥有一个智能体。目前已有150万人下载了OpenClaw并搭建了专属智能体。只需寥寥一行代码,当你下达任务指令时,这个智能体便会自动展开学习与执行。

未来,这些智能体会被整合进整个IT行业。这个行业现在还是2万亿美元的软件许可模式,但将来可能会变成8万亿美元规模。同时,他们还会转售海量的Token。全球100%的IT公司,都将成为OpenAI和Anthropic的经销商。因此,请各位务必调高对OpenAI和Anthropic的估值预期。

我相信,Anthropic、OpenAI,当然还有所有的IT公司,也会用开放模型来修改和定制自己的软件。这就是英伟达开源大模型NeMotron的用途,这就是开发与部署平台NeMo的用途。我们创建了所有这些工具,这就是为什么我们和每一家公司都在合作。他们都会去创建整合了这三个组件的智能体。我相信他们会以难以置信的速度增长。这个时刻很快就会到来,因为你可以从Anthropic和OpenAI的数字里看到,他们不是在普通地增长,他们在一个月内就能增长出一家完整的IT公司。

这些AI公司的营收模式在于:其能力一部分将由企业直接采购使用,另一部分则会通过IT公司分销,深度嵌入到IT企业的产品线中。因为AI本身就是软件。他们的软件可以直接提供给企业,也可以被集成、被定制,变成特定领域的、受管控的、安全的、易于配置的智能体系统,连接到企业的核心系统。然后这些智能体系统会被租给客户,而客户在使用过程中,仍然需要通过AI工厂来消耗Token。无论这些Token来自OpenAI、Anthropic还是开放模型,都需要被生成出来。

归根结底,传统的IT公司售卖的是软件授权,而未来的IT企业出租的将是Token。他们的商业模式必将重构,企业体量将进一步膨胀,毛利率结构亦将随之改变,因为如今他们的成本核算中加入了Token这一销货成本,但相应地,他们所能提供的价值也呈几何级数跃升。对他们而言,这无疑是令人振奋的时代机遇。

05 40%会变成70%:物理AI的万亿市场

问:我想聊聊那张60/40图的演变。你昨天谈到了NeMo,又发布了Vera Rubin DSX AI工厂参考设计,这基本上是为非超大规模客户提供了一个蓝图,让他们有能力与超大规模企业竞争。当你把所有这些东西整合在一起,看到Token生成量的大幅飙升,你预计这张图会如何演变?我们该怎么看待不同参与者的发展方向?

黄仁勋:我认为该图表的左右两侧均会保持增长,且在未来几年内增速将基本持平,直至物理AI的拐点真正降临。

一旦跨过那个拐点,工业端的计算处理就必须转至本地,必须在边缘侧、在业务现场、在生产车间内完成。到那时,那40%很可能会开始加速增长。我甚至认为,最终那40%会变得更大,因为与物理AI相关的全球工业规模,远比与数字AI相关的规模大得多。

全球工业领域有高达70万亿美元的经济活动亟需物理AI的深度介入,因为世界的运转并非仅仅局限于我们的笔记本电脑屏幕内,而是实实在在地发生于广袤的物理空间中。大量与原子相关的业务,没有物理AI根本处理不了。因此我坚信,也热切期盼着,那40%的份额最终能攀升至70%。

但无论比例如何变化,两边都会变得极其巨大。因为这个世界将进入一个状态:每天、每时每刻都在持续不断地生产Token,永不停歇。就在我们说话的这会儿,我们所有的笔记本电脑都在持续运转,希望你们大部分人的电脑都处于闲置状态,但在未来,计算机会24小时不间断运行,持续创造Token。因为你的智能体们正在替你工作。

我曾浏览过一篇Reddit帖子,发帖人的Claw智能体一天内竟消耗了5000万个Token。听起来犹如天文数字,但折算下来不过区区50美元。倘若你手下有一个智能体正在从事极具生产力的工作,这50美元简直微不足道。你完全可以让一位日薪数千美元的精英,统领一支庞大的智能体大军,为每个智能体分配50美元的日预算,从而将生产力推向极致。这一场景很快便会司空见惯。

在英伟达,我们已然付诸实践。对于那些我每天支付数千美元薪酬的员工,我巴不得他们每天消耗的Token远超50美元。我期望他们能运筹帷幄,管理一整支智能体编队来代劳繁杂任务。说实话,我真心期盼一位日入2000美元的干将,每天能豪掷1000美元在Token消耗上。这绝非天方夜谭,此时此刻全球各地的软件公司里,这一切正在真实上演。

06解密推理光谱:Groq不是来取代,是来补位的

问:你们谈过Rubin会在下半年开始出货,Groq听起来像是在第三季度推出。那么,我是否可以认为Rubin应该和Groq一起推出?因为我不认为Groq是独立存在的。然后,我想问一个更长远的问题。我真的很喜欢你们前几天放出的那张图,它在我看来几乎是展示了推理光谱的延伸,这为Groq创造了价值。你过去常说GPU是唯一的出路,我们现在看到像Groq这样的架构是必要的,以便利用不断扩大的推理光谱,低延迟变得更加重要。我想知道的是,你如何看待这个光谱从今往后的演变?你的平台现在是否拥有了未来几年所需的所有组件?展望未来,随着推理的发展,会出现哪些新型的工作负载?你是否拥有抓住这些机会所需的所有组件?

黄仁勋:谢谢你对Groq和LPDDR的提问。我们确实沟通过,Groq也会在今年下半年开始出货,具体时间临近时再看,但确实是在今年。你可以说Groq在第三季度出货,我昨天确认了,这是我们的预期。但我要说明一点:Vera Rubin会在Groq之前出货。原因是我们已经在生产Vera Rubin了,系统已经在生产线上跑着。Vera Rubin本身便难以逾越,即便对手是Groq亦是如此,哪怕将Groq与Vera Rubin强强联手,想要击败纯粹的Vera Rubin也并非易事。

在计算架构领域,大致可划分为两大流派:一派追求极致的低延迟,另一派则主攻极高的吞吐量。事实上,CPU本质上就是一台低延迟计算机,看看其芯片上的缓存规模便知,几乎全由SRAM构成。而Groq正是此类架构的极端化产物:SRAM几乎霸占了整块芯片,任务调度完全依靠静态完成,由编译器精准测算数据与计算指令的位置,确保它们“如期相遇”。整个Groq系统犹如一台庞大的同步机器,这赋予了它极强的确定性与极低的延迟。然而代价也显而易见:编程门槛高、缺乏灵活性,且并非面向通用计算。

因此我们所做的是采用了Vera Rubin,正如昨天我所描述的,它占据了大约四分之三的空间。Vera Rubin是正确的答案。我们不知道如何使它变得更好。如果我们知道如何让它变得更好,我们就会去改进它。NVLink 72以及Vera Rubin Ultra NVLink 144、Feynman NVLink 1152,我们会继续扩大左侧那个高吞吐量至关重要的区域的范围。同时,我们会把Groq加进来,与Vera Rubin融合,与我们的GPU融合,用Groq来处理自回归模型的最后一个阶段,也就是语言模型中那个对带宽要求极高的最后阶段。如果我们把一大堆SRAM聚集起来,比如数千个Groq芯片,比例大概是8比1。

所以,对于最后25%的功耗以及最后25%的用例,我们都在用ChatGPT,但我们以不同的方式使用它,我们有不同的定价层级。因为你的数据中心有各种各样的用例,不是只有一种。我们都在我那张图里的不同波段中。我展示了零级、免费级、好、更好、最好、极致版本。对于免费、好、更好这几个层级,Vera Rubin是无敌的,我们想不出任何接近的东西。而对于最好和极致,加上Groq,你可以提高最好层的吞吐量,甚至把极致层推得更远。

“极致”层级开辟了一片全新市场,但受制于吞吐量曲线,其受众规模注定极小,你无法指望需求量呈爆发式增长,因此必须辅以极高的定价策略。然而,一个全新的高净值客户群已然浮出水面:那些身价不菲的资深软件工程师。其自身的人力成本本就极为高昂,若我每天再为他们增加100美元的推理与Token成本,我也甘之如饴。哪怕在项目攻坚期暴增1000美元,他们同样乐见其成。我描述的是一个正在成熟的市场里正在发生的事情。

在市场莽荒期,没人确切知晓该如何驾驭这项技术,技术本身亦不够成熟,用户根本无法做到精准施放。100%的早期推理客户都在免费层。但随着技术开始达到o1和o3水平,付费层突然飙升,因为人们现在能用它来做有用的事情了。然后当智能体出现时,比如云代码、Codex,那些Token比免费层贵得多,也比每月20美元贵得多。所以我们刚刚增加了两个细分市场。

这和iPhone没什么不同,起初只有一个版本,现在有很多版本。和汽车行业没什么不同,和任何行业都没什么不同。随着市场扩大,细分市场也在扩大。

我展示的是一个能够生产不同细分市场和不同层级Token的工厂:从非常聪明、极其快速,到高吞吐量的免费层。这描述的是一种AI工厂架构,允许你覆盖所有需求,最终最大化工厂的总收入。我们让你自己决定如何搭配组合。

我的估计是,现在大概有25%的市场,主要针对少数几家公司,你需要是其中之一,你需要生成大量Token才值得这么做。然后还有一大批所谓的推理服务提供商、API服务提供商,我认为他们也可以从中受益,因为他们希望有不同的Token生成细分市场。所以我称之为一个由10家客户组成的群体,其中那25%的客户代表了那个蛋糕的很大一部分。通过Groq,我们可以把那25%的蛋糕的总收入提高2倍。

问:随着你继续推出新版本的Groq,新一代产品会对市场产生什么影响?你是把那个边界推得更远,还是降低成本并增加需求?

黄仁勋:我们始终在双线并进:一方面不断拉升各个层级的吞吐量上限,另一方面持续拓宽AI的智能边界。各位留意到那张帕累托图了吗?我始终在将其向上推举。刚才我向大家演示了从Hopper、Blackwell到Vera Rubin的代际演进,每一次架构迭代,我都在将其向上推、向外拓。

每当我向上推,你的工厂在同等价格点上的产量就会增加。每当我向外推,你就可以引入全新的AI层级、全新的Token层级,从而获得全新的价格点。现在的价格点大概是每百万Token 6美元左右。但我知道,大家都希望看到每百万Token 50美元的产品,那是超大模型、超快速度的层级。你能想象一个10万亿参数的模型,以每秒500个Token的速度运行吗?我们的工程师会为此付出大价钱,我也会让我的工程师为此付出大价钱。那个世界很快就会到来,然后明年还会再来,因为模型会变得更大,它们会思考得更多,会使用更多工具。

这就像早年的Nvidia。不知道你们有多少人记得,我们最初只有一个产品:Riva 128,299美元,就这一个SKU。那些美好的旧时光。然后今天我们有了5090、5080两个不同的SKU,5070更是分出了三个。所有这些SKU的出现,是因为市场变大了,开始出现细分,人们想要不同的东西。

Token市场也完全一样。它正变得越来越大,不同的细分市场想要不同的东西。所以我需要帮助我们的客户、帮助我们的模型制造者,为不同的细分市场制造不同的Token。我知道它们看起来只是数字,但它们是不同的AI。

所以答案是:我们将同时提高吞吐量并提高他们的定价。这就是Vera Rubin带来的好处,我们每一代都是这样做的。我们用Blackwell做到了,用Vera Rubin做到了,用带Groq的Vera Rubin也会做到,用Vera Rubin Ultra同样会做到。我们会持续不断地突破那个边界。

最终,简单来说,就是那张帕累托图。一个工厂要处理大量不同的工作负载和不同的客户,我们希望不断地把帕累托前沿向外推、向上推,不断地向外、向上。而要做到这一点所需要的计算机科学,是所有问题中最难的。

07 1万亿之外的1.25万亿:Groq、CPU、存储的增量空间

问:我有两个相关的问题。第一,在1万亿美元之外,昨天你还谈到了其他产品:Vera CPU、其他CPU、Groq、存储解决方案、CPX。这些增量有多少?没有包含在这1万亿里的可寻址市场有多大?我假设它们对这1万亿是增量。第二,我想更深入了解Groq。你提到它将占据推理的25%,这是个相当重要的声明。它是在蚕食什么吗?随着时间的推移,Groq的价值捕获是怎样的?很多人问我们,它是否会蚕食高带宽内存的需求?

黄仁勋:首先,今天全球只有我们一家公司能够在一个AI工厂里,同时优化和整合三种内存架构:HBM内存是我们第一个使用LPDDR5的公司,它具有极高的带宽和极低的功耗,这彻底改变了CPU的游戏规则;第三种是SRAM。我们现在可以利用所有这三种内存类型,来打造真正完美的架构。

过去,我们只有一个机柜产品:NV Link72 Grace Blackwell。现在我们有了五个机柜。NVLink 72的设计目标就是运行各种大型语言模型,我们所有的推理栈都在上面跑。但你要理解智能体系统是什么,它正在运行的东西比如Claude Code现在做的,比如Codex现在做的。这些系统的内存需求进入了KV缓存,那是在STX系统上处理的。这个内存增长得实在太快了,必须被加速。我们运行时占用的内存越多,能解决的问题就越难。这涵盖了结构化与非结构化数据,正是我在主题演讲开篇所提及的cuDF与cuVS。过去鲜少有人谈及这些底层架构,但其未来的商业价值无可估量,因为智能体的处理速度远超人类,它将以更为狂暴、迅猛的姿态疯狂吞吐这些数据。

然后是工具使用,比如网页浏览器。网页浏览器运行在CPU上,所以你需要一个CPU来让智能体访问工具。然后它会衍生出子智能体:其中一个可能是Co-opt,由GPU加速;另一个可能是Omniverse,同样由GPU加速。所以我们在数据中心里需要那种GPU。

所以,理解Vera Rubin的正确方式是:Vera Rubin作为一个系统,它的能力被极大地扩展了,我们从处理那90%的工作负载扩展到了处理所有这些任务。这就是AI。这是ChatGPT开始的地方,但这是它现在所处的位置。

这就是一个智能体。那么,刚刚在我们的数据中心里发生了什么?毕竟,没人希望数据中心被东拼西凑成“科学怪人”般的缝合怪,它渴求的是极其优雅的供电与液冷系统。所以我们把所有这些计算机都放进了MGX机柜,为其中每一个组件都设计了完美的处理器,然后直接装上机架。如果你要把存储放进去,如果你要把那东西放在和计算同一条走廊的东西向网络上,你最好别搞成弗兰肯斯坦那样。你不能一边用着液冷的NVLink 72机柜,另一边用着风冷的;不能这里用300千瓦,那里用50千瓦。所以我们把所有这些统一到一个单一的机柜架构里。如果你想建一个能运行那个智能体的集群,你只需要把它们全部连接起来:同样的供电,同样的冷却系统,全部100%液冷,全部针对工作负载做了完全优化,全部完全加速。

所以回到你的问题。为了运行这个智能体,为了提供我们刚才讨论的所有这些东西,你的资本支出会增加,你的GPU计算支出会增加25%。你把Groq加到那25%的工作负载里,你购买八倍数量的芯片,价格大概和NVLink 72机柜差不多。所以25%乘以2,就是25%的增量?对,你的计算支出增加了25%。这是第一点,而这部分不在那1万亿美元里面。所以如果那1万亿美元中的100%都加上Groq,那就变成1.25万亿美元。

然后我们还有存储。这个量很大,因为世界上存储量本来就很大,它是第二大计算支出。第三是用于工具使用的CPU,但我不预期CPU会占很多,大概5%左右。所以如果你要问,Grace Blackwell机柜和Vera Rubin机柜之间的全部差异,如果它增加了另外50%的机会,我认为这很可能差不多。

这就是Grace Blackwell上市和Vera Rubin上市的根本区别:在Grace Blackwell时代,我们要解决的是推理,我们要成为推理之王;而Vera Rubin,我们解决的是这个。这就是为什么我说OpenClaw是完全变革性的,终于我们有了一个统一的软件可以运行在这整个架构上,一个开源软件。它就是这张图的操作系统。现在,世界上的每一家公司都可以去构建这个了。

问:能谈谈你们如何使用现金来建立业务战略优势吗?你们在投资生态伙伴,有组件的采购承诺,也在向股东返还现金。你们如何平衡这些优先事项?

黄仁勋:优先事项必须这样安排:第一,必须为我们的增长提供资金。我们与供应链的合作非常紧密,我们今天与供应链的关系处于良好状态是有原因的,因为我们和他们进行非常长期的合作。我们帮助他们规划业务,把业务授予他们来支持他们的增长,我们甚至会预付款项,有时甚至会资助他们扩充产能。我们正在为未来几年那超过1万亿美元的需求做准备。

第二,我们投资于我们的生态系统,因为CUDA开发者和这个阶段AI原生公司的增长非常重要。在这之后,我们仍然会产生大量的自由现金流。这个问题我让CFO科莱特·克雷斯(Colette Kress)来回答。

克雷斯:随着我们未来1万亿美元的强劲增长,这自然为我们的自由现金流创造了非常有利的局面。黄仁勋刚才也提到了一些关键点:首先,我们要确保供应商以及构建所需的一切都井然有序,这当中可能涉及一些预付款。其次是我们仍在履行的投资承诺,这些是去年做出的,需要今年上半年完成。一旦我们把这些事情推进并落实,我们就有机会进行股票回购,把重心真正放在向股东返还资本上。这依然是我们接下来工作的重要部分。去年我们做得不错,在向股东返还资本这件事上,今年我们也会交出出色的成绩。

关于资本返还,我们现在讨论的情况,还没有把那个“加号”考虑进去。如果不算那个“加号”,我们目前的计划是:将自由现金流的50%用于股票回购和股息加总。这是我们现在的起点。但那个“加号”是真实存在的,它会给我们带来额外的机会,让我们有能力做得更多。至于具体的时间安排,需要考虑的是,我们今年上半年还有一些现有的承诺需要处理。但请保持关注。

08利润率问题的正面回击:买便宜的设备,还是赚更多的钱?

问:有人认为你们从生态系统中获取了太多价值,长期来看无法维持这样的利润率。你如何回应这种担忧?我知道你在网上也看到一些关于"必须投资生态系统"的评论,有些人用消极的方式解读。你能谈谈你们如何维持利润率吗?

黄仁勋:首先,我昨天告诉大家的几乎都是全新的视角。每个人都必须理解Token经济学。这个世界需要重新认识:计算机已经变成了什么。如果我们能持续每年交付每瓦每秒Token数量的成倍增长,如果我们能持续通过引入新的Token细分市场,让客户的平均售价也成倍增长,那客户有什么理由不继续和我们合作?

还有一点,我以前也说过,这在数学上绝对清晰。我会挑战每一家云服务提供商的CEO,让他们为自己画出那张图,我会帮他们画。然后你选你最喜欢的其他配置,无论是第三方芯片还是自研芯片,忠实地把它放进那个模型里。然后你自己决定:你是想要更高的收入,还是更低的?想要更高的平均售价,还是更低的?想要更高的利润率,还是更低的?这才是全部的意义所在。

台积电的晶圆堪称全球最贵,但其性价比同样冠绝全球,我极其乐意为此买单。ASML的系统造价不菲,但绝对物超所值,这毫无争议。所以问题很简单:你是想赚更多钱,还是想买最便宜的设备?

我刚才抛出的本质上是一个前沿概念:我将计算机系统视作台积电的晶圆厂,视作ASML的光刻机来对待。而在过去,人们的认知并非如此。如果我有两个CPU,一个是256核,另一个也是256核,哪个更好?更便宜的那个更好,因为我按核租赁。但Token不是这样创造的。你不是按核租赁,你是通过每秒Token数量来实现收益的。这是一种完全不同的经济模式,你不是在租核心,不是在租节点,你是在生产Token。这就是为什么一切都变了。

任何散布此类言论的人,纯粹是外行。他们满脑子只想采购最廉价的设备。“我的设备便宜30%”,但这笔账算到整座工厂头上,究竟意味着什么?这才是触及灵魂的拷问。如果有人跑来向你推销“我的芯片便宜50%”,请务必将这番话置于“AI工厂”的宏大语境下审视,这番说辞恰恰暴露了他对AI的一窍不通。

问:你昨天几次提到,预计到2027年产能都会紧张。能详细说明一下你具体在哪里看到这些短缺吗?另外,你称自己为“首席收入破坏者”,微软CEO萨蒂亚·纳德拉也评论过说不想过度依赖某一代产品,因为知道很快就会有下一代。这种行为是微软独有的吗?这些限制是否反而保护了您的其他客户?还是说他们也持有类似的心态?

黄仁勋:纳德拉也会告诉你这话是谁跟他说的,是我告诉他的:买你今年需要的,因为明年会有更好的。我不希望你们过于细致地揣测我们的用词。

世界在某种程度上是否供应紧张?是的。我们可以达成共识,说相反的话反而奇怪。世界上汽车紧张吗?你看到汽车了,但如果我把需求提高三倍呢?一切都某种程度上是紧张的,这完全取决于具体情况。

因为我们建设的规模如此之大,我们的生活并不简单。我们正在多个维度上与多个供应商合作,确保一切和谐运转。不能太多,不能太少,要能够满足我们的需求甚至更多。我们想要满足需求甚至更多,是因为未来21个月总有新需求出现。我还有很多新需求要来,所以我必须为此做好准备。这里有各种各样的参数,并不简单。如果我告诉你们我们在某个特定项目上供应紧张,那我知道你们接下来会做什么了。

所以我认为系统是和谐的:没有太多,也没有太少。我们没有太多电力,也没有太少电力。我们没有太多建筑工人,也没有太多水管工。我们没有太多电缆,也没有太少光模块。就是刚好差不多。我们会每天努力维持这种平衡。但那一万亿美元订单,我们是可以满足的。

问:我收到了很多关于昨天演示的问题:CPO从哪里开始,铜缆到哪里结束?你概述了NVLink 576,有一张幻灯片上还有NVLink 1152。所以我很好奇你目前关于同时提供这两者的想法,以及随着我们扩展到Vera Rubin Ultra,这会如何演变?

黄仁勋:首先,请善待我的合作伙伴们,他们都做得很好。我这里说的任何话都不意味着他们的业务会走向另一条路,他们所有的业务都会因为我们而增长。我们会让铜缆业务增长,也会让光模块业务大幅增长。我说的有没有完全合乎逻辑?答案是肯定的。让我告诉你为什么。

我们应该尽可能用铜缆扩展,能撑多远就撑多远。但在一米左右,铜缆有其物理极限。你们已经看到我们从NVLink 72发展到现在的Rubin Ultra NVLink 144,背板设计就是为了支持这一点。我们会继续研究,如果能从144扩展到288,我们非常乐意这么做,因为你应该尽可能使用铜缆。铜缆更容易制造,更可靠,人类制造和使用铜缆已经很长时间了。

这道理好比呼吸空气:只要条件允许,你就应该大口呼吸自然空气,直到氧气耗尽。在那之后,你或许不得不依靠压缩液态空气续命。但在此之前,自然空气不仅免费,而且极其安全。

所以第一原则是:尽可能用铜缆扩展。如你们所知,我们也把以太网带到了结构化电缆背板,这是增量的增长机会。我们要把以太网的背板变成这些脊柱,因为这些结构化电缆非常容易使用。现在我们掌握了如何制造和使用的技术,我们可以创造这些东西,使其容易维护,容易运输,容易布线,不会出错。

然而,同时我们想扩展到72以上,到144,到1152,甚至未来可能更远。铜缆能走多远是有限度的。所以你可以看到这样的演进路径:目前是100%铜缆。下一代Ultra会有两个选择:你可以用铜缆,或者铜缆加CPO。这是从现在起一年后。两年后,到1152,就全是CPO了,因为铜缆的物理距离极限到了。所以会有一个自然的过渡。

但即使当NVLink变成了CPO,Spectrum X也变成了CPO,我们在机架上的以太网scale-up仍然会使用铜缆,我们的存储也仍然会使用铜缆。因为我们有五个不同的机柜。所以铜缆的使用量会继续维持在高位,因为即使scale-up在两三年后转向CPO,随着所有其他机柜的需求和总产能持续增长,铜缆连接器的总消耗量也会持续增长。

09细分市场的终局猜想:法拉利没有免费版,Token也一样

问:你之前谈到Token成本,听到高端占25%非常有帮助。你如何看待市场随时间演变,低端或免费层与高端层的增长率会如何?在一个以Token成本大幅下降为前提的市场中,你认为这一趋势会如何发展?是否会开始放缓或趋于平缓?

黄仁勋:Token成本会持续下降,每年都在下降。从Grace Blackwell到Rubin,Token成本会再次下降,Rubin Ultra还会继续下降。与此同时,每个Token背后的智能程度,会随着我们把那条曲线向右推而持续上升。同时,我们会不断提高吞吐量。

这一切都绕不开一个核心命题:任何人都不应盲目盯着“每秒Token数”看,你必须始终将其与功耗相除进行归一化。逻辑很简单,你的数据中心容量存在物理天花板。你的数据中心是一个吉瓦,你不会有第二个;如果是200兆瓦,你也不会有第三个。所以你必须始终将其归一化到功耗。否则,你无法比较任何架构。摩尔定律也总是要除以某个东西。所以你必须看的是:每瓦每秒Token数。任何向你兜售其他衡量标准的人,要么是AI门外汉,要么就是心怀鬼胎。这正是SemiAnalysis(半导体研究机构)之所以能看透本质的原因,一切指标都必须归一化至单位功耗。

我们将不断提高吞吐量。所以无论Token价格是多少,无论平均售价是多少,我们都在提高吞吐量。同时,无论那个细分市场是什么,我们都在降低成本。下端基本上是你们的细分产品市场,那是吞吐量、产量、成本的问题。这就是为什么这两条曲线如此重要。现在我把这两条曲线结合在一起,这条曲线本质上就是帕累托前沿。

目前世界大部分地区还在这里,这是Hopper的世界。Blackwell把它扩展了,并增加了一些新的细分市场。这非常有价值,因为这里和这里的平均售价差异可能达到5倍、10倍,模型更大,速度更快。

那么我如何看待需求曲线的变化?昨天我用了25%在这里,25%在这里,25%在那里,25%在另一边。但一个制造商的不同产品细分市场的分布,完全取决于具体情况。法拉利全是高端,没有免费层;而其他品牌则完全不同。我认为这里也一样。

如果你的业务是搜索,你主要会在免费层,因为没人会为搜索付费。如果你是代码生成、智能体代码,你会大量集中在这里。如果你的客户是企业员工,平均工资可能是5万或7万美元,你可能在这里,你希望你的产品定价也在相应的位置。这取决于你的客户、你为他们做的工作,以及竞争格局。AI Token是一种产品,一种新商品,它会以这种方式被营销。不同的供应商、不同的品牌、不同的目标市场,会有完全不同的形状分布。我昨天只是随便选了一个平均分布做示例。

问:你认为未来哪个细分市场增长更快?

黄仁勋:目前它们都会增长得非常快,都在呈指数级增长。我们还处在开始阶段,增长率是被一个很小的基数相除后得到的结果。

问:我们的实地调研告诉我们,AI工程师对状态空间模型感到兴奋,因为它们解决了内存需求问题。在主题演讲中,你展示了NeMotron 3在顶级模型中的基准测试,我相信那是一个混合了混合专家和状态空间的模型。智能体AI是否创造了对新AI模型的需求?这就是你通过NeMotron和混合模型所做的吗?状态空间为NeMotron 3带来了什么,是纯混合专家模型没有的?如果发生向新型AI模型的转变,这对Nvidia的竞争环境有何影响?

黄仁勋:我们运行所有AI模型,无论是纯Transformer、离散Token、连续模型、扩散模型、状态空间模型,还是混合模型。我们架构的美妙之处在于,它能处理所有模型。举个例子,Groq做不了扩散模型,但我们什么都能做。我之所以拿Groq开玩笑,绝非刻意针对,毕竟它现在已归我麾下。只是客观而言,每种架构都各有其主战场。

英伟达之所以如此全能,之所以被如此广泛地自由使用,是因为无论你的研究科学家明天想出什么创新,我向你保证:它在CUDA上会运行得很好。原因很简单,我们拥有执行所有这些任务所需的所有计算元素。

NeMotron 3的设计初衷,是为了让你能够处理极长的上下文。将来,你与你的AI的对话,希望能持续你的一生。所以问题来了:如何处理上下文?如何处理相关的对话记忆?一方面,如果你记住了所有东西,随着时间的推移,我们谈论过很多事情,当记忆太多时,你该调用哪个版本?可能会变得混乱。这些都是研究的前沿领域。

但我认为,混合架构将是一件非常重要的事情。因为它允许你处理极长的上下文,而不必遭受计算量二次爆炸的痛苦。这就是我们发明它的原因。我们把它开源,希望每个人都能使用它。它的目的就是推动AI进步,而不是与任何人竞争。我们只是想推动AI向前发展。

问:我想试着理解你下游的AI市场目前有多集中,以及未来会如何演变。你那张图显示60%是超大规模企业。但我感觉另外40%里,大部分是二级云提供商,而他们中的很多人实际上是在把产能转售或租赁给超大规模企业或前沿实验室。所以如果把超大规模企业和前沿实验室合在一起,可能80%的实际基础设施使用者都在里面了。而这些模型,比如Anthropic的模型、OpenAI的模型,似乎只有极少数真正处在最前沿。你认为这是对今天情况的准确描述吗?你如何看待这种情况的演变?这对价值链上的赚钱能力、发展方向以及AI的进一步加速意味着什么?

黄仁勋:我会把它拆成三个维度来看。

第一个维度是:最终运行的是什么模型?我之前说过,OpenAI是最大的,第二大类是所有开放模型的总和,绝对稳居第二,第三是Anthropic,然后依次往下排。长尾其实相当长。所以如果你看模型消费的世界,哪怕只看语言模型,也应该这样思考。我们运行所有这些模型,我们参与其中每一个。

在这个模型的子维度里,你还必须加上物理AI模型,也就是机器人技术。你看到的所有机器人,它们运行的是视觉模型、语言模型、动作模型。这些和纯语言模型完全不同。举个例子,控制电机是连续的,不是离散的“点、点、点”;物理世界是连续的,生物学里的基因组遵循的是几何规律。所以有很多不同类型的模型。但重点是,你首先要搞清楚正在运行的是哪些类型的模型,这有助于你思考如何开展业务。

第二个维度是:根据公司的结构、意图或利益,计算的位置在哪里?他们是想要自研芯片的公司,那我们必须和他们竞争?他们是想要在自己的云里托管Nvidia客户的公司,显然CUDA只在Nvidia上运行?他们是像NCPs这样的公司,他们不能只买芯片,他们真的需要买系统,所以他们是真正的基础设施客户?还是那些想要本地部署的公司?因此,我们的分销渠道需要通过戴尔、惠普和联想,因为必须整合一大堆其他企业计算组件,而戴尔和惠普不自研芯片。或者是在边缘,也许是无线网络、机器人系统、自动驾驶汽车,甚至是卫星?现在你得决定计算在哪里进行。

当你把这些全部细分完之后,再回到我展示的那张60/40图。在那40%里,他们本质上需要的是计算平台。不管他们运行什么模型,可能是OpenAI的模型,可能是Anthropic的模型,Nvidia支持机密计算,这让OpenAI和Anthropic有可能在右侧那部分运行。那一边,他们想要完整的平台,想要机密计算,想要在世界不同地方部署计算机,而不仅仅是在云里。

即使在云里,我们也和那60%CSP图中的某一部分存在竞争关系,但我们也把客户带到另一部分。所以在那60%的CSP图里,有一部分我们必须竞争。我们的工作就是比世界上任何人都更好地交付那张图的价值,我们做得非常好,实际上我们的地位还在日益增强。而在另一部分,我们把客户带给他们,他们只有感激。

我把所有这些维度压缩成两个饼图。你可以用这个压缩后的图来检验:他们是否设计自己的芯片?我们是否在芯片层面和他们竞争?我不认为OCI会设计自己的芯片,我认为他们这样做不明智。显然Coreweave也不会设计自己的芯片。所以我们在哪里竞争?我们在哪里为云服务提供商带来客户?他们云收入的很大一部分,显然OCI几乎是100%,是因为Nvidia。

10黄仁勋的组织哲学:60个人管1万亿

问:展望未来,12个月的创新飞轮是你竞争优势的关键部分。但当我看到员工人数时,增长其实非常缓慢,相对缓慢。然而,你们承担的任务量比这增长得快得多。你如何管理这一点?如何管理这可能给业务带来的风险?

黄仁勋:我的直接汇报团队有60人。我们需要60人,是因为公司的架构就是为了交付这种产品架构而设计的。组织的架构应该反映他们构建的产品。每家公司不应该看起来都一样。打造法拉利与流水线生产福特的方式截然不同,前者是围绕底盘调动技师,后者则是让车辆在流水线上流转穿梭。这完全取决于你渴望缔造怎样的结果,而组织架构理应成为这一愿景的映射。

你看看我的管理团队,构建Vera Rubin整个工厂所需技术的每一个方面,都在那里,百分之百具备。每个人都代表一个关键领域,所有专业知识都坐在同一张桌子上,共同决策。

第二件事是,我们有纪律去开发整个软件栈。如果你不能把它启用起来,你就无法每年构建我们所构建的东西。如果不能启用,你怎么测试它?如果你从其他人那里拼凑新技术,你怎么能做到每年启用一次?这根本不现实,不可能。

所以我们让我们所有的芯片与平台对齐,所有七款芯片都只有一个流片时间表。我不会拼凑每个人的流片时间表然后算出系统什么时候出来。系统需要在它该来的时候来,每个人都对齐到那个时间点。而软件栈,我们完全拥有每一部分。存储是我们自己开发的,网络当然也是,甚至工厂操作系统Dynamo也是我们创造的。这样我们就可以交付每一个基准测试,测试到极限,测试可靠性。

英伟达构建NeMotron的原因,就是为了我们能做预训练、后训练,现在还能做推理。我们拥有所有的软件,这样我们就可以每年启用所有的系统,这基本上意味着你一直在启用。

如果你不拥有所有东西,你毫无机会,是绝对的零概率事件。人们谈论他们的新GPU,但他们的scale-up结构从哪里来?那要怎么工作?我们之前讨论的那个完整的智能体系统,就是未来的计算机。所以我们公司的组织、公司的使命、公司的能力,都与我向市场交付承诺的目标完全一致。这就是为什么我们能持续做到。

区区一张PPT是绝对造不出那套系统的。仅凭一张画着两根柱状图的幻灯片,也绝无可能忽悠别人砸给你500亿美元。当你真正将其全面工程化,并在数据中心内部成功落地时,我们早已遥遥领先了两个身位。这正是我们倒逼整个行业滚滚向前的独特模式,一条铺满荆棘的极难之路。我们之所以能披荆斩棘,全凭我刚才详述的种种底蕴。

我们的每一个系统都与CUDA兼容,所以第一天,昨天的软件就能完美地在今天的系统上运行。我拥有所有的scale-up交换机、所有的scale-out交换机、所有的软件。第一天,我把昨天的软件放到新系统上。如果它不工作,那还有什么意义?然后一旦我们启用了所有东西,因为我们拥有整个软件栈,我们就可以把它推向极限。拥有CUDA兼容性,我们有这个叫DOCA的兼容层。我们拥有所有的编译器,我们拥有所有的软件栈,这非常非常重要。你不能把这外包给别人。别人为你构建芯片,但他们不会为你启用系统,不会为你做验证。

11 99%的算力应该用在推理上

问:这次活动上我们谈了很多关于推理的内容。我希望你能花几分钟谈谈训练。你认为计算强度会如何增长?未来几年,驱动因素是什么?仍然是越来越大的模型,还是你看到地平线上有其他东西?如果从三到五年的角度来看,你对训练与推理在计算需求上的比例有何看法?

黄仁勋:训练已经从预训练发展到了后训练阶段。

预训练的本质是记忆和泛化。你记忆得越多,泛化能力就越强,你拥有的基础就越好。有了这个基础,也就是预训练模型,它有点像AI的幼儿园,或者更准确地说,是AI的高中,它掌握了基本的词汇、语法,甚至隐含了很多推理能力。这样当我教它新技能时,它才能理解我在说什么。如果你连我的意思都听不懂,怎么可能去执行任务?所以预训练做的就是这件事。

后训练则是教模型各种各样的技能:强化学习、带可执行基础的强化学习、带可验证反馈的强化学习、面向批处理的强化学习技术、工具使用,无论是基于结构的API,还是非结构化的工具使用。领域太多了。这部分的计算强度,我猜可能比预训练大一百万倍。我可能差个1.2倍,但肯定是非常大的量级。原因是有太多技能需要学习,而所有这些技能的学习周期都非常非常长。所以模型必须变得越来越大。当你把这些技能都掌握之后,你生成的大量合成数据,其中一部分又会回流到下一轮的预训练中。

因此,过去的预训练皆以互联网数据为起点,当下的预训练依然以此为主力。但假以时日,再历经几代迭代,合成数据将全面接管预训练的半壁江山。同时,你还在增加多模态能力,增加运动能力,让模型能够在物理世界中长时间执行动作。因为有很多常识是与认知逻辑相关的,如果你能在物理世界中互动,即使在抽象世界中,你也能更容易地处理那个概念,因为你拥有了在物理世界中接地的经验。

请注意我刚才描述的计算量。我们未来所需的训练计算量是百万倍、十亿倍级别的,再加上持续学习。几乎每个人的模型都会被最后训练、被微调,以便它也能为每个人做记忆和泛化。所以在未来,推理从哪里开始、从哪里结束,训练从哪里开始、从哪里结束,会变得越来越模糊。你什么时候在学习,什么时候在应用你的智慧?对大多数人来说,现在是持续不断的。

至于推理与训练的比例,我的希望是:世界上99%的计算都用于推理。因为推理环节,才是我们将生成的Token兑现为真金白银的变现场。世界上没人会为你的学习过程买单,也没人会替你的训练成本掏钱,你必须自掏腰包搞训练,而真正能榨出商业价值的,唯有推理。我希望这个世界能够把这些Token用于有价值的成果:医疗保健、制造业、金融服务、工程等等。我们希望未来99%的Token都用于产生经济效益,而AI模型则在不断学习。

有一个很好的理由可以解释为什么Nvidia去年全力以赴投入推理,因为我们看到了这个未来:推理和训练、预训练和学习,所有这些都只是一个大的连续统一体。不妨回味一下两年前坊间流传的论调:“英伟达确实擅长训练,但推理简直是小菜一碟,阿猫阿狗的公司都能做。”诸位还记得吗?时至今日,真相大白,推理简直难如登天。端详一下这张图表,它难到了极点,且未来将呈地狱级难度递增。推理的本质就是深度思考、硬核工作、真刀真枪地干活。这种苦差事,怎么可能“容易”?

所以我认为人们完全把它搞反了,他们只是想编造故事来合理化他们自己的机会,这没问题。但你得从第一性原理来推理。我花很长时间回答你们的问题,而不是用一个高度筛选、精心选择、精准调整动词和名词的简短回答,是因为我希望你们学会如何通过这些来推理。这样当你们自己看到某些说法时,你会想“不,那没道理”或者“那有道理”。因为你们是分析师,你们需要能够理解这些事情。