PG电子官方网站NVIDIA徐添豪:软硬件共同赋能大范畴集群演练GPT-3算力有用性超50%丨GTIC 2023

 常见问题     |      2023-05-06 03:37:26    |      小编

  PG电子智东西5月4日报道,正在GTIC 2023中国AIGC改进峰会上,NVIDIA消费互联网行业管理计划架构师掌握人徐添豪带来了主旨为《NVIDIA全栈赋能LLM的前沿钻探和范围化安插》的主旨演讲。

  硬件算力的提拔不但仰仗芯片工艺的提拔,更仰仗精确捕获AI模子算法演进的需乞降趋向,徐添豪说:“找到推算加快的合节点,并继续改进满意他日的生意需求。”进入大模子时间,一张卡远远无法承载一个模子的锻练,必要更多个人构成能相互团结的呆板节点。

  NVIDIA引入NVLink,NVSwitch和IB工夫,个中Ampere和Hopper架构便是凭据NVSwitch修建节点,通过IB汇集实行集群组网,使得这些能力强劲的个人能高效团结完工统一件事。

  个中底层硬件是底座,为了开拓者把硬件用起来并真正管理题目,必要软件的协同。以是,NVIDIA正在过去连续正在修建SDK和场景使用以管理各行各业的题目,个中NeMo Framework便是为理会决大模子锻练和推理安插题目。

  那么,何如评估锻练GPT-3事实必要多少资源?徐添豪诠释了一个公式:打发的时光=做大模子必要的FLOPS/硬件发扬的有用算力。基于并行形式的有用集成及一系列的优化,NVIDIA的NeMo Framework正在锻练GPT-3经过中能使得硬件算力有用功能抵达50%以上。

  大师下昼好!出格光荣此日可以来投入GTIC大会,借此机缘盘绕LLM(狂言语模子)带来少许NVIDIA正在硬件、上层的分享。

  正在这几月,创投圈、工夫圈聊大模子的人迥殊多,此日我不会从行业场景或算法层面来切入这个点,而是大师离不开的算力话题,紧要蕴涵三部门:

  1、回忆过去五六年NVIDIA迭代的硬件体例打算研究,研讨奈何盘绕AI时间来做演进和改进。

  大略回忆一下过去几年大师听到对比多的硬件架构,NVIDIA五个平台架构Pascal、Volta、Turing、Ampere、Hopper对应的产物有五代。除了图灵卡没有锻练卡,其余四代都有相应的锻练卡。

  咱们可能看到,Pascal架构第一次引入了FP16。以前咱们做HPC的时间,FP64的数值精度都是必备的,看待算法结果是很要紧的一个保险。到了深度研习、呆板研习时间,大师察觉FP32就能搞定这个题目,省下许多算力。

  再进一步,是不是有更低的数值精度把这个题目管理好?FP16的引入,正在P100的架构组成呆板上,开创了混杂精度时间,再往后到加深了混杂精度,到Ampere、Hopper架构引入更多新的数值花样,到Hopper上引入FP8,即将会迎来盘绕着FP8的混杂精度锻练时间。

  从ResNet到RNN,从卷积神经汇集到Transformer,主旨机合都是推算重心正在矩阵乘法上,出格直接的一个加快方式或者把算力提上去的方式,便是加快这个矩阵乘法,特意做矩阵推算加快的Tensor Core。过去十年的算力演进,每年比拟上一年翻一番,过去十年累计起来可能看到,仍旧提拔了1000倍算力提拔。

  一切硬件的演进不但仅把算力通过工艺堆叠起来,也通过继续的改进去找到AI算力需求点,去实行特地的寻找办事。

  一张卡可能以为是单打独斗的人,出格有气力。大模子时间不或者由一张显卡来管理题目,它的题目范围是原本的一万倍、一百万倍,以至他日更大数目级的提拔,咱们必需用更多的显卡、更多有气力的个人构成团结节点和集群。

  NVLink和NVSwitch是点对点的连合器件硬件,把GPU之间连合起来,高速互联,不再必要走PCIe受限于带宽做讯息共享。

  NVLink体例仍旧演进到第四代,性子不同是带宽弥补。正在Volta架构引入第一代NVSwitch,由16卡组成的单节点呆板,到Ampere和Hopper,现正在墟市上主流的是如此少许通过NVSwitch修建出来的节点。

  NVSwitch便是一个Switch,实行点对点的全速互联,使得这么多出格强的个人可以高效地合到沿道,沿道做一件事项,呆板内节点的演进和研究。

  倘使说这个题目标范围变得越来越大,譬喻现正在OpenAI做ChatGPT,或者必要上万张显卡沿道来做,意味着有几千个节点,这些节点同样必要硬件的连合设置,使得咱们有足够的讯息换取渠道硬件,让它们以高效相同的措施来做团结。

  引入呆板间的汇集互联,以互换机和网卡修建出来以IB汇集修建的数据核心集群,看待这个题目标管理是至合要紧的。

  你的节点内题目管理得很好,节点间大师又存正在少许带宽的限度,使得它不行高效配合起来,算力就会被奢华。NVIDIA正在硬件、底层体例架构打算上过去几年继续演进研究和打算,这才使大师现正在能看到基于A800体例赋能急迅把狂言语模子做出来。

  除了底层硬件,NVIDIA正在软件生态上花了许多的期间,自2006年引入CUDA,正在生态中修建了许多软件。

  底层的硬件行动一个底座,倘使要援救上层做得更好,还必要用各类各样的软件。过去这么多年,盘绕CUDA的生态管理了各类各样的题目。譬喻咱们帮台积电管理正在芯片打算坐蓐范畴的推算加快题目。

  再到上层,此日大师或者聚焦的NeMo,特意针对管理大模子以及其它锻练的题目。

  前面大师都提到了做一个GPT-3的锻练或者要多少资源。咱们拿一千张A800的卡做一个评估,有一个大略的公式,必要打发的时光等于你做这个大模子,譬喻GPT-3圭臬机合,要的FLOPS是多少,通过表面形式可能算出来。

  同时除以硬件的FLOPS乘以它的有用性,硬件真正发扬出来的FLOPS,等于你做完这个题目事实要花多少时光。前面都是定的,譬喻我有一个参考,GPT-3如此的机合去过300 billon tokens的数据,假设给你128台A800呆板组筑的集群,用FP16做锻练的线个节点,算出来这些是定的FLOPS。

  大师做各类各样的软件打算去告竣更速的锻练收敛结果,出格主旨的成分正在于这个“50%”PG电子官方网站。NVIDIA正在NeMo Framework上175B的范围正在128台呆板上抢先50%。各道业内大拿都正在用各样各样的方式,都是盘绕这50%做得更高,这也成为一个陆续的线 billon tokens的数据锻练175B的模子,这个可能跟大师看到的1000张卡一个月安排的时光对上硬件。

  切磋到前面的硬件机合打算,呆板内通过NVSwitch互联,互联带宽出格强,可能把必要更多的带宽通讯的并行形式放到节点内。通过如此的工夫再联络ZeRO1等工夫可能告竣前面提到的50%+的结果,这吵嘴常好的成就。

  NVIDIA推理方面正在过去几年跟国内各行各业都有出格慎密的配合,正在这个经过当中继续地积蓄,有一套Fast Transformer,看待安插场景供给更高的含糊以及Latency的均衡,有期间正在GPU的硬件设置上为了拿到更大的含糊或者要组Batch,这是常见的安插方式。

  其余,为了加快企业的大模子范围化安插,NeMo Framework还供给了基于FasterTransformer和Triton整合的一体化大模子计划。

  总结一下前面讲的,从2016年Pascal架构到现正在Hopper架构速即要先河安插了,每代显卡针对当时以至他日AI的模子或者展示什么机合做前沿的改进,这些改进落实到现正在能看到的锻练剧本内部,以至是少许框架内部。

  由这些出格强的个人自身的算力演进来提拔1000倍算力,由超强的个人再构成节点集群,这内部都有NVIDIA出格多的研究,有着每一代工夫的演进,才调组成超强的推算集群,来为大模子时间供给出格好的根本架构步骤参考。

  下一步,盘绕硬件以表的软件生态,NVIDIA修建出全栈的、可以直接最终给到大师开箱即用的一系列加快软件计划,帮帮大师正在接下来的大模子时间能有更速的速率,推出用时光、空间来博得正在墟市上职位的软硬件一体化计划。

  这便是我的分享,也是过去跟行业内各个客户,切实把这些工夫联络硬件、软件、生态落地之后的少许研究。

  (本文系网易讯息•网易号特点实质鞭策谋划签约账号【智东西】原创实质,未经账号授权,禁止随便转载。)

  原题目:《NVIDIA徐添豪:软硬件协同赋能大范围集群锻练GPT-3,算力有用性超50%丨GTIC 2023》PG电子官方网站NVIDIA徐添豪:软硬件共同赋能大范畴集群演练GPT-3算力有用性超50%丨GTIC 2023