10月29日,英伟达在华盛顿举行GTC大会,黄仁勋在演讲中再次强调摩尔定律(Moore's Law)已正式终结。当前是一个AI算力需求呈双重指数级增长的时代,这一终结不仅是技术的瓶颈,更是一场新的计算竞赛的起点。
英伟达在此次GTC上交付了一套完整的AI工业革命基础设施。从Grace BlackwellGB200到到NVLink-72全互联机架,再到Omniverse DSX数字孪生工厂,英伟达的战略核心是:通过“极致协同设计”(Extreme Co-Design)来打破物理定律的限制,将AI推理(Inference)这个新的计算核心成本降至最低,从而持续驱动AI工业发展的良性循环。
黄仁勋的演讲主要包含以下几个方面:
1、算力新经济:推理成本的极致压缩
英伟达的新架构,建立在一个新的算力洞察之上:AI模型从“预训练”迈向“后训练”和更高阶的思考阶段,对算力的需求呈爆炸式增长。特别是“思考”过程,需要AI在每次互动中处理上下文、分解问题、规划和执行,这使得推理任务变得空前复杂和耗费资源。
在摩尔定律失效的背景下,解决双重指数级增长的算力需求,只能依靠“极致协同设计”。Blackwell架构不再将GPU视为独立单元,而是通过NVLink72互联结构,将72颗GPU整合为一个虚拟的超级GPU。相比上一代,GB200在推理性能上实现了惊人的10倍提升。
极致性能带来的是最低的Token生成成本。尽管GB200是最昂贵的架构之一,但其每秒Token产出率带来的总拥有成本(TCO)最低。这是驱动AI良性循环的关键经济杠杆。英伟达已经规划了下一代架构Rubin,以确保算力性能的指数级增长和成本的指数级下降。
2、从芯片到工厂:基础设施的生态圈化
英伟达正在将“数据中心”转变为“AI工厂”。这种工厂只生产一种产品:有价值的Token。英伟达推出了Omniverse DSX,这是一个用于设计、规划和运营吉瓦级AI工厂的蓝图与数字孪生平台。
DSX让西门子、施耐德电气等合作伙伴,能在虚拟的Omniverse中协同设计计算密度、布局、电力和冷却系统。这种设计优化,对于一个1吉瓦的AI工厂而言,每年可带来数十亿美元的额外收入,极大地缩短了建设时间和上市周期。
在系统层面,英伟达的ConnectX和BlueField DPU(数据处理器)也进行了深度协同设计。全新的ConnectX9 Super NIC和Spectrum-X以太网交换机,专为AI高性能设计,确保了大规模GPU间的通信不会成为网络瓶颈。
新一代BlueField-4 DPU被定位为“上下文处理器”,专门用于处理AI所需的巨大上下文,例如读取大量PDF、论文或视频后回答问题,并加速KV缓存,解决当前AI模型在处理长对话历史时越来越慢的问题。
3、跨越边界:进军物理AI与核心工业
英伟达的意图将其核心技术扩展到“物理AI”(Physical AI)的实体经济维度。
在电信领域,英伟达与诺基亚(Nokia)建立了深度合作,共同发布了NVIDIA ARC平台。ARC将NVIDIA的Grace CPU、Blackwell GPU和ConnectX网卡结合,运行Aerial CUDA-X库,旨在打造软件定义的可编程无线通信系统。ARC还能实现AI on RAN,将AI云计算推向最靠近用户的无线电边缘,为工业机器人和边缘应用提供基础设施。
人形机器人被视为未来最大的消费电子和工业设备市场之一。英伟达是Figure等顶级机器人公司的核心合作伙伴,提供训练、模拟和运行的全部平台。此外,与迪士尼合作开发的机器人,展示了在物理感知环境中进行训练的潜力。
在自动驾驶领域,NVIDIA DRIVE Hyperion平台将环绕摄像头、雷达和激光雷达标准化,使其成为一个“轮式计算平台”。英伟达宣布与优步(Uber)合作,将这些Drive Hyperion就绪的车辆接入全球网络,为Robo-Taxi的全球化部署奠定基础。
在基础科学领域,英伟达发布了CUDA-Q平台和NVQLink互联架构,目标是将GPU超级计算与量子处理器(QPU)直接连接。这种混合架构用于量子错误校正和协同模拟,被美国能源部(DOE)的各大国家实验室广泛采用。
4、企业AI与生态系统的战略性覆盖
黄仁勋认为,AI的本质是“工作者”(Workers),而不是“工具”(Tools)。AI能够使用工具,这使其能够参与到此前IT工具无法触及的100万亿美元的全球经济中。
为了将AI工作者部署到企业核心业务中,英伟达宣布了两项重量级合作:
第一,携手网络安全巨头CrowdStrike,共同打造基于云端和边缘的AI网络安全代理,以应对AI带来的新安全威胁,要求速度必须达到“光速”。
第二,与Palantir合作,加速其Ontology平台的数据处理能力,为政府和企业提供更大规模、更快速的商业洞察。
英伟达还将CUDA-X库集成到SAP、ServiceNow、Synopsys等关键企业SaaS平台中,将这些工作流程转化为“代理式SaaS”(Agentic SaaS)。
此次GTC,英伟达完成了从芯片公司到AI工业平台领导者的彻底重塑,通过一套完整的架构、网络、工厂和行业延伸,试图定义新一轮工业革命的底层标准。

以下为黄仁勋演讲实录:
1、开场:拥抱计算新纪元
华盛顿特区!欢迎来到GTC。很难不对美国感到感性和自豪,我得告诉你这件事。那段视频太棒了!谢谢。英伟达的创意团队表现出色。
欢迎来到GTC,今天我们将与您深入探讨诸多议题。GTC是我们讨论行业、科学、计算、当下与未来的地方。所以今天我有很多事情要和你讨论,但在开始之前,我想感谢所有赞助这场精彩活动的合作伙伴。你会在展会现场看到所有这些产品,他们来这里是为了见你,真的很棒。没有我们生态系统中所有合作伙伴的支持,我们无法完成我们的工作。
这可是AI界的超级碗,人们说。因此,每届超级碗都应该有一场精彩的赛前表演。大家觉得赛前节目怎么样?还有我们所有明星运动员和明星阵容。瞧瞧这帮家伙。不知怎的,我竟成了最壮实的那一个。你们觉得呢?我不知道我是否与此有关。
英伟达开创了六十年来首个全新计算模型,正如你在视频中所见。新的计算模型很少出现。这需要大量的时间和一系列条件。我们观察到,我们发明了这种计算模型,因为我们想要解决通用计算机无法处理的问题。普通计算机无法做到。我们还注意到,总有一天晶体管将继续发展。晶体管的数量将会增加,但晶体管的性能和功率提升速度将放缓。摩尔定律不会无限延续,它终将受到物理定律的限制。而此刻,终于来临了。丹纳德缩放效应已停止,它被称为丹纳德缩放效应。丹纳德缩放定律已于近十年前停止,事实上,晶体管性能及其相关功率的提升已大幅放缓。然而,晶体管的数量仍在持续增加。我们观察到这一点已经很久了。
应用并行计算,将其与顺序处理的CPU结合,我们就能将计算能力扩展到远超以往的水平。远远超出。而那一刻真的到来了。我们现在已经看到了那个拐点。加速计算的时代已然来临。然而,加速计算是一种根本不同的编程模型。你不能直接拿CPU软件,那些是手工编写的软件,顺序执行,并将其部署到GPU上确保正常运行。事实上,如果你只是那样做了,它实际上运行得更慢。因此你必须重新设计新的算法。你必须创建新的库。事实上,你必须重写该应用程序。这就是为什么花了这么长时间的原因。我们花了近三十年才走到今天这一步。但我们是一步一个脚印地完成的。
这是我们公司的瑰宝。大多数人都在谈论GPU。GPU固然重要,但若没有在其之上构建的编程模型,若不致力于该编程模型,就无法确保其在不同版本间保持兼容性。我们现在正推出CUDA 13,并即将推出CUDA 14。数以亿计的GPU在每台计算机中运行,完全兼容。如果我们不这样做,那么开发者就不会选择这个计算平台。如果我们不创建这些库,那么开发者就不知道如何使用该算法,也无法充分发挥该架构的潜力。一个接一个的申请。这确实是我们公司的瑰宝。
CuLitho,计算光刻技术。我们花了近七年时间才与cuLitho走到今天这一步,现在台积电也用它,三星也用它,ASML使用它。这是一座令人惊叹的计算库。光刻,芯片制造的第一步。CAE应用中的稀疏求解器。cuOpt,一款几乎打破所有纪录的数值优化工具。旅行推销员问题,如何在供应链中将数百万种产品与数百万客户连接起来。Warp,用于CUDA的Python求解器,用于仿真。cuDF,一种基于数据框的方法,本质上是加速SQL,数据框专业版-数据框数据库。这个库,正是开启AI的起点,cuDNN,位于顶部的名为Megatron Core的库使我们能够模拟和训练超大规模语言模型。这样的例子不胜枚举。
MONAI,非常重要,是全球排名第一的医学影像AI框架。顺便说一句,今天我们不会过多讨论医疗保健问题。但一定要去听金伯利的主题演讲。她会详细介绍我们在医疗保健领域开展的工作。这样的例子不胜枚举。基因组学处理,Aerial,注意听,今天我们要做一件非常重要的事。量子计算。这只是我们公司350个不同库的代表之一。这些库中的每一个都重新设计了加速计算所需的算法。这些库的出现,使得整个生态系统的所有合作伙伴都能利用加速计算的优势。这些库中的每一家都为我们开拓了新的市场。
让我们来看看CUDAx能做什么。
(视频内容)
这很棒吗?你所见的一切都是仿真。没有艺术,没有动画。这就是数学的魅力所在。这是深奥的计算机科学,深奥的数学,它美得简直令人难以置信。涵盖了所有行业,从医疗保健到生命科学,制造业、机器人技术、自动驾驶汽车、计算机图形学,甚至电子游戏。你所见到的第一张截图,正是NVIDIA首次运行的应用程序。而这正是我们1993年起步的地方。而我们始终坚信着自己所追求的目标,它生效了。很难想象你竟能亲眼见证那个最初的虚拟格斗场景跃然眼前,而那家公司也相信我们今天会在这里。这真是一段无比精彩的旅程。我要感谢所有英伟达员工所做的一切。这真是太不可思议了。
今天我们要涵盖的行业很多。我将涵盖AI、6G、量子技术、模型、企业计算、机器人技术和工厂。让我们开始吧。我们有很多内容要讨论,还有许多重大消息要宣布。许多新伙伴会让你大吃一惊。
2、加速计算崛起
电信是经济的脊梁,是经济的命脉。我们的产业,我们的国家安全。然而,自无线技术诞生之初,我们便定义了这项技术,我们制定了全球标准,我们将美国技术输出到世界各地,使世界能够基于美国技术和标准进行发展。那件事已经过去很久了。当今全球无线技术主要依赖于国外技术。我们的基础通信架构建立在外国技术之上。这种情况必须停止,而我们正有机会做到这一点。尤其是在这个根本性的平台转型期间。众所周知,计算机技术是支撑所有行业的基石。这是科学最重要的工具。这是工业领域最重要的单一工具。我刚才说我们正在经历平台转型。这次平台转型,应当是我们重返赛场千载难逢的机会。让我们开始运用美国技术进行创新。
今天,我们宣布我们将采取行动。我们与诺基亚建立了重要的合作伙伴关系。诺基亚是全球第二大电信设备制造商。这是一个价值3万亿美元的产业。基础设施投资高达数千亿美元。全球有数百万个基站。如果我们能够建立合作伙伴关系,就能基于这项以加速计算和AI为核心的非凡新技术进行创新发展。而对于美国而言,要让美国成为下一轮6G革命的核心。
因此,今天我们宣布英伟达推出了一条全新产品线。它被称为NVIDIA ARC,即空中无线电网络计算机。空中RAN计算机,ARC。ARC由三项基础性新技术构建而成:Grace CPU、Blackwell GPU以及我们的Mellanox ConnectX网络解决方案专为该应用设计。所有这些使我们能够运营这座库,我之前提到的这个名为Aerial的CUDA X库。Aerial本质上是在CUDAX之上运行的无线通信系统。我们将要首次创造一种软件定义的可编程计算机,能够同时进行无线通信和AI处理。这完全是革命性的。我们称之为NVIDIA ARC。
诺基亚将与我们合作,整合我们的技术。重写他们的栈。这是一家拥有7,000项5G核心基础专利的公司。很难想象还有比他更杰出的电信业领袖了。因此我们将与诺基亚建立合作伙伴关系。他们将把NVIDIA ARC作为未来的基站。NVIDIA ARC还兼容AirScale,即当前诺基亚的基站系统。这意味着我们将采用这项新技术,能够在全球范围内升级数百万个基站,实现6G和AI的升级。如今6G和AI确实具有根本性意义,因为它们首次实现了我们将能够使用AI技术,即面向无线接入网的AI技术。提高无线电通信的频谱效率。利用AI,采用强化学习,实时调整波束成形,在具体情境中,取决于周边环境、交通状况以及移动出行方式、天气。所有这些因素都可纳入考量,从而提升频谱效率。频谱效率消耗约全球1.5%至2%的电力。因此,提高频谱效率不仅能提升无线网络传输数据的能力,同时无需增加所需的能量消耗。
我们还能做另一件事,即为无线接入网提供AI支持。是AI-on-RAN。这是一个全新的机遇。请记住,互联网实现了通信,但真正了不起的是那些聪明的公司。亚马逊云科技在互联网基础上构建了云计算系统。我们现在要在无线通信网络上实现同样的功能。这片新云将成为边缘工业机器人云。此处指的是AI-on-RAN。首项是AI-for-RAN,提升无线电性能、提高无线电频谱效率,第二是基于AI的无线接入网,本质上是无线通信领域的云计算。云计算将能够直接延伸至边缘区域,即没有数据中心的地方。并非如此,因为我们在全球各地都设有基站。这个消息真是令人兴奋。
让我们来谈谈量子计算。1981年,粒子物理学家、量子物理学家理查德·费曼构想了一种新型计算机,能够直接模拟自然。因为自然本身就是量子化的。他称之为量子计算机。40年后,该行业实现了根本性突破。40年后,就在去年,实现了根本性突破。现在可以制造一个逻辑量子比特,一个保持相干性的逻辑量子位,稳定,且错误已修正。过去,一个逻辑量子比特由有时可能是10个,有时可能是数百个物理量子比特协同工作。众所周知,量子比特这些粒子极其脆弱。它们很容易变得不稳定。任何观察、任何采样行为、任何环境条件都会导致其失相干。因此需要极其严格控制的环境。
如今,还有许多不同类型的物理量子比特,它们协同工作,让我们能够对这些量子比特进行纠错。所谓的辅助量子位或综合量子位,供我们进行错误纠正并推断其逻辑量子位状态。存在各种不同类型的量子计算机,超导、光子学、囚禁离子、稳定原子,各种不同的方法来制造量子计算机。现在我们意识到,必须将量子计算机直接连接到GPU超级计算机,这样才能进行错误纠正。以便我们能够对量子计算机进行AI校准与控制,以便我们能够共同进行模拟,协同工作,在GPU上运行的正确算法,在QPU上运行的正确算法,以及这两种处理器,两台计算机并排工作。这就是量子计算的未来。
(视频内容:让我们来看看。构建量子计算机的方法有很多。每种都采用量子比特作为其核心构建单元。但无论采用何种方法,所有量子比特,无论是超导量子比特、囚禁离子还是中性原子或光子,面临相同的挑战。它们非常脆弱,对噪音极其敏感。当前的量子比特仅能稳定运行数百次操作。但解决有意义的问题需要数万亿次运算。答案是量子纠错。测量会扰动量子比特,从而破坏其内部的信息。诀窍在于添加额外的量子比特,并使它们处于纠缠态。这样,测量它们就能为我们提供足够的信息来计算错误发生的位置,同时不会损坏我们关心的量子比特。它非常出色,但需要超越最先进的常规计算能力。
正因如此,我们打造了NVQLink,一种全新的互连架构,可将量子处理器与英伟达GPU直接连接。量子纠错需要从量子比特中读取信息,计算错误发生的位置,并将数据发送回去进行修正。NVQLink能够以每秒数千次的频率,在量子硬件与外部设备之间传输数千兆字节的数据,以满足量子纠错所需的高速数据传输需求。其核心是CUDA-Q,我们面向量子GPU计算的开放平台。借助NVQ-Link和CUDA-Q,研究人员将能够实现超越错误纠正的功能。他们还将能够协调量子设备和AI超级计算机来运行量子GPU应用程序。量子计算不会取代经典系统。它们将协同工作,融合为一个加速的量子超级计算平台。)
要知道,CEO们可不是整天坐在办公桌前打字的。这是体力活,纯粹的体力活。因此,今天我们宣布推出NVQLink。其实现得益于两点:当然,这个用于量子计算机控制和校准的互连系统,量子纠错,以及连接两台计算机,利用QPU和我们的GPU超级计算机进行混合仿真。它还具有完全的可扩展性。它不仅能为当前数量有限的量子比特执行纠错操作,它为明日的错误纠正做准备,届时我们将把量子计算机从如今的数百量子比特扩展到数万量子比特。未来将拥有数十万个量子比特。因此,我们现在拥有了一套能够实现控制的架构,协同激发、量子纠错与未来扩展。
业界的支持令人难以置信。在CUDA-Q发明之前,请记住,CUDA原本是为GPU、CPU和加速计算设计的,基本上是同时使用两个处理器来完成一一用对工具做对事。如今,CUDA-Q已扩展至CUDA之外,从而能够支持QPU,使两种处理器协同工作。QPU与GPU协同工作,计算任务在两者之间往返传递,耗时仅数微秒,实现与量子计算机协同运作所需的基本延迟。如今,CUDA-Q已成为一项了不起的突破性技术,被众多不同领域的开发者所采用。我们今日宣布,共有17家量子计算机行业公司支持NVQLink。而且我对此感到非常兴奋。
八个不同的美国能源部实验室:伯克利实验室、布鲁克海文实验室、费米实验室、林肯实验室、洛斯阿拉莫斯、橡树岭、太平洋西北、桑迪亚国家实验室。几乎所有美国能源部的实验室都与我们展开合作,携手量子计算机公司生态系统及量子控制器供应商,将量子计算逐步融入科学发展的未来蓝图。
我们正在经历几次平台转型。一方面,我们正经历着加速计算的发展,这就是为什么未来的超级计算机都将基于GPU。我们将转向AI,使AI与基于原理的求解器、基于原理的模拟协同工作。基于原理的物理模拟不会消失,但它可以被增强、强化、扩展,使用代理模型、AI模型。
我们还知道,通过基于原理的求解器,经典计算能够借助量子计算来增强对自然状态的理解。我们也知道,未来我们拥有如此多的信号,必须从世界中采样如此多的数据,遥感技术的重要性已达到前所未有的高度。除非这些实验室成为自动化工厂,否则它们根本无法以我们所需的规模和速度进行实验,成为机器人实验室。因此,所有这些不同的技术正同时涌入科学领域。

3、极致协同设计,重塑AI算力经济
我们来聊聊AI吧。什么是AI?大多数人会说AI就是聊天机器人,嗯,这完全是理所当然的。毫无疑问,ChatGPT正处于人们所认为的AI的前沿。然而,正如你此刻所见,这些科学超级计算机不会运行聊天机器人,他们将从事基础科学研究。
科学AI的世界远比想象中更广阔,远不止是一个聊天机器人。当然,聊天机器人极其重要,而通用AI则具有根本性的关键意义。深层计算机科学、非凡的计算能力以及重大突破,仍是实现AGI的关键要素。但除此之外,AI还有更多可能。
实际上,我将用几种不同的方式来描述AI。第一种方式,即人们最初对AI的认知,是它彻底重构了计算栈。我们过去做软件的方式是手工编码,在CPU上运行手工编码软件。如今,AI就是机器学习、训练,或者说数据密集型编程,由在GPU上运行的AI训练和学习而成。为实现这一目标,整个计算栈已发生改变。
注意,你在这儿看不到windows,也看不到CPU。你看到的是完全不同的、从根本上截然不同的架构。
在能源之上还有这些GPU。这些GPU被连接到、集成到我稍后将展示的基础设施中。在这项基础设施之上——它由巨型数据中心构成,其规模轻松达到这个房间的数倍之多。巨大的能量随后通过名为GPU超级计算机的新设备转化,从而生成数据。这些数字被称为tokens。
语言,也就是计算的基本单位,是AI的词汇表。几乎任何东西都可以进行tokens化。当然,你可以对英语单词进行分词处理,你可以对图像进行分词处理,这就是你能够识别图像或生成图像的原因。对视频进行分词,对3D结构进行分词。你可以对化学物质、蛋白质和基因进行tokens化处理,你可以对单元格进行tokens化处理,将具有结构的几乎任何事物、具有信息内容的任何事物进行分词处理。
一旦能够将其tokens化,AI就能学习该语言及其含义。一旦它学会了那种语言的含义,它就能翻译,它能回应,就像你与ChatGPT互动那样,它能生成内容。因此,你所看到ChatGPT所做的一切基础功能,你只需想象一下,如果它是一种蛋白质会怎样?如果它是一种化学物质呢?如果它是一个3D结构,比如工厂呢?如果它是一个机器人,而tokens是理解行为并将其转化为动作和行为的标记呢?所有这些概念基本上是一样的。这正是AI取得如此非凡进展的原因。
在这些模型之上还有应用程序。Transformers是一个极其有效的模型,但并不存在放之四海皆准的通用模型。只是AI具有普遍影响。模型种类繁多。在过去的几年里,我们享受了发明带来的乐趣,并经历了创新的洗礼,例如多模态的突破。有这么多不同类型的模型,有CNN模型(卷积神经网络模型),有状态空间模型,也有图神经网络模型,多模态模型,当然,还包括我刚才描述的所有不同的分词方式和分词方法。