站正在潮头的英伟达与硬件护城河的隐忧

 常见问题     |      2024-03-25 09:13:06    |      小编

  PG电子官方网站神译局是36氪旗下编译团队,合心科技、贸易、职场、存在等范围,中心先容表洋的新本领、新见地、新风向。

  编者按:黄仁勋正在比来的英伟达大会上的呈现可谓景色无穷:正在人为智能海潮的胀吹下,前来细听这家算力供应商的客户、伙伴和粉丝挤满了整座场馆。但一位着名科技博主却以为这也许是人为智能成为一概主宰之前的结尾一场强大揭晓,仰慕着一块芯片何如蜕变天下。而英伟达苦心思要打造的硬件护城河,到底会被成为取代品所能带来甜头的强健动力冲垮。著作来自编译。

  本周一,当公司首席推行官黄仁勋正在一个人育馆里向全天下揭晓了该公司的最新芯片时,英伟达对人为智能的狂热抵达了极点。这一幕被一位分解师说成是“人为智能界的伍德斯托克音笑节”。

  稠密客户、团结伙伴以及对这家芯片公司抱有极高盼望的粉丝们纷纷集会到 SAP 中央——美国冰球同盟圣何塞鲨鱼队的主场。正在那里,他们细听了黄仁勋为英伟达一场年度大会所做的核心演讲。本年的聚会住址能够容纳约莫 11000 名听多。就正在本年2月,职业摔角的 WWE Monday Night RAW 就曾正在这里上演。本年5月,贾斯汀·汀布莱克(Justin Timberlake) 也将正在这个舞台上举办演唱会。即使是每年备受注意的苹果 iPhone 与 iPad 揭晓会也未始能让如许广大的空间座无虚席。但目前,能集会科技圈一起眼光核心的,无疑是黄仁勋。他从一位具有稠密视频游戏敦朴粉丝的半导体公司 CEO ,蜕变、成具有足够吸引力,能吸引成千上万人到场公司庆典的人为智能专家。

  我对《华尔街日报》以此为引子报道这场运动感应心死,但并不是由于我以为他们该当把报道整个布告举动中心。凑巧相反,我跟他们有着一律的观念。有关于布告自身,黄仁勋的核心演讲最令人难忘的,凑巧是那宏伟场地。

  有关于《华尔街日报》的类比,我确实以为拿iPhone 揭晓会比力会尤其适宜;特别是正在 iPhone 早期,苹果本能够轻轻松松就吸引到 11000 人填满一个场馆。不表,害怕又有一个更适宜的比较,那即是 Windows 95 的揭晓。2021 年,Lance Ulanoff正在 Medium 上曾写过一篇回想:

  光靠一个操作体系就可以简直激发全天下的合心,这种景象是很难遐思的,但 1995 年 Windows 95 揭晓的时刻即是如许的。1995年8月24日,记者们从天下各地涌向了当时假使邑邑葱葱、但周围尚幼的微软雷德蒙德园区。入场券印着原先的 Windows 起先按钮的图案(我至今仍保全着我的那张入场券)——“起先”成为了整场运动的主旨大旨,开启了这场只对受邀人绽放的嘉光阴般的嘉会......那是本领界一段相对欢喜且纯洁的时间,或者也是正在互联网成为一概主宰之前结尾一场强大揭晓。正在彼时,软件平台,而不是某篇博客或一件产物,还能蜕变天下。

  当人们正在2040 年转头此日时,也许也会把它算作“本领界一段相对欢喜且纯洁的时间”来挂念,由于咱们目击的“也许是正在人为智能成为一概主宰之前的结尾一场强大揭晓”,遐思着“一块芯片能够何如蜕变天下”;而关于正在此之前的岁月,咱们也许会算作像我如许的人类作家结尾的亡命所来挂念。

  关于像我如许也曾看过多场黄仁勋核心演讲的也曾和将来的老顽童来说,趣味的是此次运动的相对聚焦:是,黄仁勋是讲到了诸如气象、机械人、Omniverse以及汽车之类的话题,但最紧张的是这是一场芯片揭晓会。揭晓的是 Blackwell B200 代 GPU,核心演讲大部门实质都是筹商其各式效力特征、分列、职能、团结合联等。

  我以为这跟 GTC 2022 酿成了明显比照。正在那场揭晓会上,黄仁勋揭晓了 Hopper H100代 GPU:讲芯片/体系架构的部门要短良多,要紧是巨额潜正在用例以及一起英伟达为 CUDA 开辟的各式库的筹商。就像我一年前注明那样,这关于 GTC 来说很寻常:

  机械人、数字孪生、游戏、机械研习加快器、数据中央级的策画、搜集安笑、主动驾驶汽车、策画生物学、量子策画、元宇宙开辟器材,万亿参数级的人为智能模子!

  然而,黄仁勋正在核心演讲的序文中夸大,这种周围的背后确实有其内正在的纪律和源由......

  接下来,我长远疏解了 CUDA 以及它关于掌管英伟达深入发达机会的需要性,并总结道:

  这是懂得英伟达本领栈的一个有益视角:编写着色器(shader)就像编写汇编圭表一律,由于很难写,并且很少有人能写好。 CUDA 把它笼统成一个通用 API,一个尤其通用且易用的API——依照这一类比,它即是操作体系。不表,就像操作体系一律,具有能够裁减圭表员的反复事业、让他们可以专心于本身的圭表的库很有效。 CUDA 和黄仁勋提到的各式 SDK 也一律:这些库让实行能正在 Nvidia GPU 上运转的圭表变得尤其纯粹。

  这即是一场核心演讲可以涵盖那么多大旨的因由:机械人、数字孪生硬件、游戏、机械研习加快器、数据中央周围的策画、搜集安笑硬件、无人驾驶汽车、策画生物学、量子策画、开辟元宇宙的器材,以及数万亿参数的人为智能模子——这些大部门都是正在 CUDA 的基本上新增或更新的库,而英伟达做出来的库越多,其开辟的本事也就越强。

  但这只是 Nvidia 本领栈的一部门云尔:公司还对硬件与软件层面的搜集及基本架构实行了投资,这些投资让使用可以正在总共数据中央内扩展,可运转正在成千上万的芯片之上。这个流程同样必要奇异的软件层扶帮,这特出了要懂得英伟达最紧张的一点,它并不光仅是一家硬件公司,也不光是一家软件公司,而是一家软硬件一体公司。

  回思起来能够看出,过去的那些 GTC揭晓是由一家尚未实行产物与市集极大立室的公司所举办的。当然,黄仁勋以及英伟达对 Transformer 和 GPT 模子不是不分解 — 黄仁勋乃至提到了 2016 年他曾把首台 DGX 超等策画器机亲身交付给 OpenAI 的形象——但请注视,他手绘的策画史籍那张片子如同漏掉了良多以前正在 GTC 身上常见的东西:

  必要显着的是,这并不是正在贬低黄仁勋或是英伟达;现实处境正好相反。英伟达担任了一种全新的策画方法,以往的 GTC 的方向是通过实习寻找和胀吹这种新式的使用场景;现目前,正在 ChatGPT 问世之后的天下里,最大的使用场景,也即是天生式人为智能(generative AI)曾经变得尽头明白,黄仁勋所要传达的最要害讯息,是因谁人伟大何如正在可料思的将来连接主导这一范围。

  正在一年一度的GPU 本领大会,被部门分解师叫做人为智能范围的 ‘伍德斯托克节’上,英伟达公司揭示了其迄今为止最强健的芯片架构。公司首席推行官黄仁勋亲身上台先容了新的 Blackwell 策画平台的亮点——B200 芯片,这是一颗具有突出 2080 亿个晶体管的超强芯片,其职能超越了英伟达业界当先的人为智能加快器。面临环球各大企业甚至国度把人为智能开辟算作优先义务的排场,这颗芯片希望进一步稳固英伟达的当先名望。继前代产物 Hopper 帮帮英伟达市值打破 2 万亿美元之后,英伟达对其最新的 Blackwell 也寄予了很高的盼望。

  合于 Blackwell起首该当晓得的是,这块芯片现实上是由两块内核熔合正在沿途的。据该公司表现,这两个内核正在操作时是完整协同的;这现实上意味着Blackwell 有关于 Hopper 的要紧上风之一即是尺寸更良多。这是黄仁勋手持 Hopper 和 Blackwell 芯片比照的照片:

  “Blackwell 更大”这一点也呈现正在英伟达开辟的体系之中。一体化的 GB200 平台是两块 Blackwell 芯片配一块 Grace CPU 芯片,这与 Hopper 的一对一架构分歧。黄仁勋还揭示了 GB200 NVL72。这是一个液冷的体系,体积与机架相当,内含 72 颗用新一代的 NVLink 维系的 GPU。该公司传播,与一概数宗旨 H100 GPU 比拟,其正在大讲话模子(LLM)推理上的职能呈现提升了 30 倍的(部门是由于特意用于基于 Transformer 的推理的硬件),同时将本钱和能耗消重了 25 倍。这些幻灯片有一组数据迥殊值得注视:

  值得注视的是,两次演练所用的时期都是一律的——90 天。这是由于现实的策画速率基础沟通;鉴于 Blackwell 和 Hopper 一律都是用台积电的 4nm 工艺创造的,而且现实上策画素质上是串行实行的(是以要紧受芯片底层速率的影响)。假使如斯,所谓的“加快策画”并不依赖于单核速率,而正在于并行管造本事,并且新一代芯片以及更新的搜集本领,都能够实行更高效的并行管造,确保 GPU 获得充斥行使;这也是为什么明显厘正正在于消重了所需的 GPU 数目,从而完全裁减了能源消费。

  如许一来,Hopper 巨细的 Blackwell GPU 系列就能够修筑周围更大的人为智能模子。鉴于模子的周围和职能如同呈线性增进合联,那么 GPT-6 以及之后的发达目标看起来已经是明白的(据猜度 GPT-5 是用 Hopper GPU 演练的;而 GPT-4 是用 Ampere A100 演练的)。

  趣味的是,据报道,假使 B100 的分娩本钱是 H100 的两倍,英伟达上调的售价却远低于预期;这就注明了为什么公司估计改日利润率会相对较低。这份现已从互联网上消逝的叙述(或者是由于它是正在核心演讲之前揭橥的?)猜度,面临着订价极具侵略性的 AMD硬件,以及其最大客户试图自行安排芯片的处境,英伟达对保护其市集份额感应挂念。公共有强壮的动力去寻找取代品,特别是正在推理范围,这一点无须说。

  合于这一点,另一个正在 GTC 公布的音信供应了少许有效的后台讯息。来自英伟达开辟者博客的摘录:

  天生式人为智能的普及速率之速令人注意。受到 2022 年 OpenAI 推出 ChatGPT 的催化,这项新本领正在短短数月内就吸引了突出 1 亿的用户,简直正在一起行业中掀起了开辟运动的上涨。到了 2023 年,开辟职员纷纷测试用来自 Meta、Mistral、Stability 等的 API 和开源社区模子实行观念验证(POCs)。

  步入 2024 年之后,各结构起先把核心转向通盘安置分娩境遇硬件,必要管造的事项蕴涵将人为智能模子接入现有的企业基本架构、优化体系时延以及含糊量、日记、监控、安笑等。走向分娩境遇的道道既繁复又耗时,这一流程必要有特定身手、平台和流程的扶帮,特别是正在大周围安置时。

  举动 NVIDIA AI 企业处分计划的一部门,NIM 为开辟者供应了一条简化的道途,能够开辟基于人为智能的企业使用以及正在分娩境遇下安置人为智能模子。

  NIM 是一套云原生的、优化过的系列微办事,其安排理念是为了裁减产物进入市集的时期、简化天生式人为智能模子正在各式境遇下的安置流程,无论其是云平台、数据中央照样 GPU 加快的事业站。通过采用行业尺度的 API,NIM 将人为智能模子开辟和分娩安置的繁复性笼统出来,从而扩展了开辟者的资源池。

  NIM 现实上是预先打包好的容器,内置完了构启动模子安置所需的通盘资源,并且这不光仅是满意目今的必要,更着眼于将来的深入需求。黄仁勋闪现一个吸引人的场景,即企业可以行使多个 NIM 正在一品种似人为智能体的框架内协同事业,以已毕繁复的义务。

  遐思一下 AI API 能做什么:AI API 即是一个交互接口,你只需与之对话即可。是以它属于如许一种将来软件,这种软件有一个尽头纯粹的 API,咱们称之为“人类”。这些难以想象的软件包将进程进一步的优化和打包,然后咱们会把它们上传到网站,你能够随时下载、随身率领,能够正在职何云平台、数据中央,或者正在事业站上运转(条件是兼容),你独一必要做的即是拜候咱们称之为 Nvidia 推理微办事,但正在公司内部,咱们都叫它NIM。

  遐思一下,也许有朝一日闲话机械人就封装正在一个 NIM 内中。你能够组合良多仿佛如许的闲话机械人,而这恰是将来软件的开辟方法。将来咱们会何如开辟软件呢?你大概不会重新起先去写软件了,也不太大概编写巨额的 Python 代码。你更大概会通过整合各式人为智能的效力来组筑一支人为智能团队。

  很有大概映现一种所谓的超等人为智能呢个,用户能够通过它来下达指令,并将之解析成一系列的推行盘算。这些盘算中的某些义务大概会委派给特意的 NIM 来管造,例如某个擅长懂得 SAP(其讲话是 ABAP)的 NIM。或者,NIM 大概要从 ServiceNow 平台上检索讯息。接下来,另一个 NIM 大概会对这些讯息实行分解管造——也许是去运转某种优化软件,使用组合优化算法;也许仅仅是实行基本运算;又或者是行使 Pandas 如许的器材做少许数值分解。随后,它会带着结果返回,并与其他各方的结果汇总。因为它被见知了“确切谜底该当是什么样的”,于是可以天生出适宜的输出,并把这些揭示给用户。咱们能够行使一起的 NIM,每个幼时准时获取一份叙述,叙述实质大概蕴涵项目盘算、预测、客户警示或是数据库的差池记实等合连事情。

  因为这些 NIM 曾经被封装好,能够正在你的体系停当,只消你的数据中央或云办事里装备了 Nvidia 的 GPU,它们就可以协同事业,已毕难以想象的义务。

  但你注视到一个题目了吗?英伟达既会本身开辟NIM,同时还会慰勉更广大的生态系统去开辟,其方向是免费供应给人操纵——但这些 NIM 只可正在英伟达的 GPU 上运转。

  于是这篇著作的筹商又回到了最初的原点:正在 ChatGPT 揭晓之前谁人时期,英伟达环绕着其 GPU 的软件生态系统修筑了一个相当强健的(免费)护城河,但挑拨正在于,市集对这些软件的使用远景还不是相称的开阔。时至今日,GPU 的整个用例曾经尽头开阔,并且这些用例都是发作正在 CUDA 框架之上很高层面的;这一点,再加上寻求更经济的英伟达取代品的强壮动力,意味着脱节 CUDA 的压力与大概性比以往任何时刻都要大(假使关于较为底层的事业,特别关于模子演练而言,这种处境大概还很遥远)。

  英伟达曾经起先做出回应:我以为,从一个角度去懂得的话,DGX Cloud 是英伟达的一种战术,思搜捕的是假使 AMD 芯片职能更佳但仍采办 Intel 办事器芯片的统一片市集(由于曾经环绕着英特尔实行尺度化了);而 NIM 则是英伟达思搞锁定的又一次测试。

  不表,值得一提的是,跟良多人的预期相反,英伟达并不妄想用 Blackwell 获取更高的利润;至于英伟达要不要正在将来的产物当中做出更多的让步,这不光取决于其芯片的职能,还取决于它们能否有用地应对软件护城河正面对的谁人劫持——正好让 GTC 成为如斯一场盛况的统一波海潮。站正在潮头的英伟达与硬件护城河的隐忧