雪球·财经有深度 podcast

2993.英伟达的护城河

0:00
11:27
Reculer de 15 secondes
Avancer de 15 secondes

欢迎收听雪球出品的财经有深度,雪球,国内领先的集投资交流交易一体的综合财富管理平台,聪明的投资者都在这里。今天分享的内容叫英伟达的护城河,来自古董鱼。


看了一晚上英伟达的护城河强行洗脑最后的结论是英伟达不倒我不撤退一直AI下去如果哪天英伟达被颠覆了别问我还能不能拿因为那时候我已经跑了



大家都以为英伟达的硬件强其实它的隐形护城河是计算平台和编程模型加网络


我们来看看英伟达的先发优势与成熟度:他的计算平台和编程模型于 2007 年推出,经过近 20 年的发展,已成为 G P U 计算的行业标准。它积累了超过 400 万开发者,形成了庞大的社区和网络效应。


从英伟达的全栈优化与工具链来看,计算平台和编程模型提供了从编译器、调试器到高度优化的核心库的全套工具。这些库经过英伟达的深度优化,能充分发挥其硬件性能,开发者无需编写底层代码即可获得顶尖性能。


再从开发习惯与迁移成本来看,计算平台和编程模型广泛纳入大学课程和培训项目,工程师们从小白阶段就开始接触它。企业积累了大量的 CUDA 代码和专业知识,切换到其他平台需要重写代码、重新培训员工,并面临性能不确定的风险,这种切换成本高得难以想象。


这种计算平台和编程模型的关键优势之一是,随着时间的推移,它通过新的软件更新不断改进硬件。刚刚对在H100和新的Blackwell GB200 NVL72这两种版本的芯片上运行AI训练进行了基准比较,结果表明了为什么计算平台和编程模型及其软件随着时间的推移的改进如此重要。最新,CoreWeave公司给出的数据,对 NVIDIA GB300 NVL72,进行了基准测试,其每 4x的 G P U 的单位时间内跑AI的速度比16x的H100高6倍,最初可不是这个比值,通过英伟达的计算平台和编程模型的不断优化,最后达到了这个高性能。


其实一直有用CUDA转换器的,然而,用过转换器的,他们以大约80%的速度转换CUDA代码,而剩下的20%必须由内核工程师手动完成,这样成本并不便宜。同样有趣的是,虽然其他公司正在结成联盟,为Nv的全栈部分建立替代方案,但是目前没有一个与英伟达竞争的联盟出现。


接着是英伟达网络的护城河


关于网络,通常说纵向扩展和横向扩展这两个部分,最近火的scale across先不提了。纵向扩展指的是机架里的 G P U 能够相互连接,形成单个 G P U 节点,并使其尽可能强大。然后,横向扩展网络使这些 G P U 节点能够连接到其他 G P U 节点,并共同形成一个大型 G P U 集群,使用其专有的 N V Link和 N V switches横向扩展时,他们使用从Mellanox收购中获得InfiniBand或以太网作为次要选项。


英伟达的其他对手一起搞了个 U A link联盟,它的成员包含了能想到的其他公司。U A link有 A M D 、亚马逊、谷歌、英特尔、Meta、微软、思科、苹果、Astera Labs等公司组成。但它对 A M D 来说很重要,因为与英伟达相比,其最大的缺点之一是网络。网络不仅对培训人工智能工作负载很重要,而且对推理也很重要。随着推理模型的推论变得更加复杂,拥有良好的放大和缩小是关键。同时,为了解决这一挑战,他们希望支持所有可用的替代方案。这就是为什么他们有灵活的输入输出通道。这些灵活的输入输出通道使A M D能够支持不同的标准。


虽然 U A Link还很年轻,但它已经遇到了很大的挫折。起初,博通是参与的关键公司之一,但后来退了。这是一个重大的挫折,因为 A M D 现在必须依靠AsteraLabs和Marvell来生产 U A Link联盟的交换机,而 U A Link交换机要到2027年才能准备就绪。这就是为什么我们可以看到,虽然 A M D 的MI400x显卡有 U A Link Serdes,但它并没有构成一个完整的扩展网络。


不过,英伟达不仅仅是在关注这一发展,因为在UALink 1.0发布一个月后,他们宣布了NVLink Fusion,从纸面上看,它打开了NVLink生态系统。这对英伟达来说是一大步,因为一位前英伟达高级员工解释说,在内部实施这一步骤是多么具有挑战性,因为Meta想在他在那里工作时将 N V Links用于他们的MTIA,而英伟达的回答是坚定的“不”。


NVLink 技术模块是用英伟达自家独有的方式和芯片传递数据的,其中一部分技术至今还是英伟达独有的。有了这套技术,英伟达只能让客户用他们的芯片间连接技术。


现在客户也意识到了这一点,就像那位前英伟达员工提到的,他们担心这样一来,就算自己有定制的专用芯片ASIC,也会进一步被绑在英伟达的生态系统里 ,所以 U A Link到现在依旧是个替代选择。


英伟达和 U A Link这边,有个关键角色是 Astera Labs公司 —— 毕竟现在博通已经自己单干、走自己的技术路线了。现在 U A Link联盟得靠 Astera Labs 来提供交换机。英伟达很清楚Astera Labs现在是 U A Link联盟里的核心部分,可能会想办法促使Astera Labs订购更多英伟达的 NVLink Fusion;而一旦Astera Labs用了NVLink Fusion,他们能为 U A Link服务的能力就会受限,至于这么做最终能不能帮到英伟达,还得靠时间来验证。


横向扩展方面,英伟达的InfiniBand网络技术,有个替代方案是支持远程直接内存访问的以太网。英伟达也支持这个替代方案,但只把它当作“次要选项”,英伟达甚至还有个 Spectrum X 以太网平台,因为他们通过收购,拿到了Spectrum系列交换机的技术和产能。


很多大型科技公司也支持以太网,原因很实在:它成本更低,早就广泛用在数据中心里,而且有多家供应商可选。现在支持 RDMA 的以太网已经获得了不少采用度,因为大型科技公司和Meta这类企业,都愿意用它来减少对英伟达的依赖。


不过,此前我们虽已探讨过纵向扩展和横向扩展软件与网络这两个核心层面,但还有一个新的关键层面才刚刚兴起,那就是HBM,高带宽内存


作为人工智能加速器的核心组件之一,HBM的重要性会随着AI模型向更大规模、更复杂结构发展,而愈发凸显。目前,海力士与美光是 HBM3 内存的主要供应商,不过三星预计也将完成相关认证流程,加入 HBM3 的供应体系。


当向HBM4内存过渡时,将迎来一项关键变革:HBM4 的基础芯片晶圆需采用先进的逻辑芯片制造工艺。这意味着海力士与美光无法独立完成,必须将制造环节外包给台积电;同时,这些内存厂商还需与逻辑芯片设计公司或技术授权商展开合作,方能完成它的设计工作。


这一变革为 “定制化 HBM 内存方案” 创造了空间,但反过来也意味着,HBM4的利润需与台积电共享一部分 —— 毕竟其制造环节高度依赖台积电。此外,HBM4 的复杂度远高于HBM3,需将内存厂商的芯片堆叠技术与代工厂的先进制造工艺相结合,这种局面实际上对英伟达更为有利,因为英伟达此前已计划自主设计HBM4的 3 纳米芯片裸片。


事实上,我并不担心专用芯片ASIC会侵占过多市场份额。多数云服务提供商选择自主研发芯片,主要源于英伟达的市场垄断与显卡产能不足 —— 这实属无奈之举,他们为了更快获取可用算力,才不得不走上自主研发之路。此次英伟达发布的 Rubin 系列 CPX 产品,核心目标便是提升 AI 的上下文推理能力。在我看来,推理领域真正的领先者,并非 ASIC 这类专用推理芯片,仍属英伟达的产品。


另有一项关键问题不容忽视:数据中心可使用的电力存在限制,尤其在北美地区,电力更是必须重视的硬性约束。


为何 X AI 公司能在 122 天内建成全球规模最大的算力中心?一方面,马斯克拥有全球顶尖的工程团队与执行能力;更重要的是,X AI所能获得的供电支持,在全球范围内也处于顶尖水平。


当你运营现有数据中心,或计划新建数据中心时,需与电力公司合作确定固定的电力使用额度,而这一额度具有明确上限 —— 你无法随意致电电力公司,提出 “需额外增加 10% 电力” 的需求。若我们对比英伟达当前一代与下一代服务器,那么在评估H100与GB300服务器时,核心衡量标准应是 “处理同等数量的令牌时,可节省多少电力”。而英伟达每次产品更新,实际上都在推进这项电力效率优化工作。


所以,我想说的是英伟达的手里牌很多,老黄这个人能力强的可怕,就算现在出来ASIC和其他 G P U 竞争对手,都是更多跟随和模仿,对所有在供应链做硬件的公司都是利好,因为总的需求变多了,可以说遍地开花。

D'autres épisodes de "雪球·财经有深度"