当前位置: 首页 > 产品中心 > 高剪机

高剪机

赛道Hyper 英伟达超算机:定义AGI算力集群

来源:米乐棋牌    发布时间:2023-11-02 13:43:16

  英伟达创始人兼CEO黄仁勋,不但是个出色的技术工程师,也是位杰出的市场管理专家和营销大师。

  黄仁勋的营销才能,从其对GPU的定义可以窥视。原先,GPU只是一张显卡,后来黄仁勋将服务器也称为GPU。最近,“黄氏”GPU定义,已扩展至CPU叠加GPU内存算力集群。

  英伟达最近发布的超级计算机DGX GH200,从参数上看,性能极为惊人,结构也堪称精巧。但是,从技术原理上看,DGX GH200原本很可能并非为AI集训所设计,其内核Grace Hopper是决策型AI(为AI推荐系统所用)性质。

  从结构设计上看,DGX GH200从决策型AI“转型”到LLM方向,但其真正价值并非为LLM定制,而是其可扩展性、以及将CPU内存与GPU内存,通过NVLINK C2C组件整合起来的技术,以此来实现黄仁勋将GPU的定义扩展为超算集群的逻辑自洽。

  黄仁勋将Grace Hopper称为“superchip”(超级芯片),这很像是一种营销表达。

  实际上,Grace是CPU,确实是为AI而生,但本身的技术特性不是高性能CPU算力,而是能耗控制。换句话说,Grace负责还过得去的算力性能;Hopper则是GPU,与印象中的英伟达GPU负责AI算力不同,“Grace Hopper”中的Hopper,负责的是散热。

  根据英伟达技术白皮书显示,Hopper是英伟达基于Hopper架构的GPU(即H100系列),而Grace则是英伟达自研的基于ARM架构的高性能CPU。

  通过LPDDR5X(内存)通信接口,Grace接了高达512GB的内存(实际480GB),内存带宽也达到546 GB/s;Hopper(GPU)则通过HBM3(显存)接口接了最多96GB的显存,带宽可达3TB/s。

  LPDDR有时候也等同于Low Power Double Data Rate SDRAM,中文全称“低功耗双信道同步动态随机存取内存”。通常,这以先进封装技术直接堆在CPU处理器上方,以低功耗和小体积著称,是移动应用场景的主流内存产品。

  基于LPDDR5的性能基础,LPDDR5X更进一步:数据传输速率从6400Mbps增至8533Mbps,对于支持8533Mbps LPDDR5X内存的移动SoC,其峰值理论可用带宽将进一步增长到68.26GB/s,从而赋予更广泛的设备拥有更多基于AI和5G的功能。

  Grace用了LPDDR5X,就其16GB的容量而言,即使用了8片,CPU的总容量也只有128GB,远远达不到决策AI所需要的存储空间,更遑论对LLM的容量支持要求。但黄仁勋采用了新的结构,也就是集成8颗Grace CPU,还将之互联成一个Unified Memory。

  乍看上去,如此神一样存在的存储容量令人惊叹。但实际上,Grace Hopper的整体容量,除了内存还包括显存,这是从所未见的结构设计。但这种结构忽略了CPU同样令人惊奇的延迟。

  这问题该如何来解决?若解决不了,以Grace Hopper为核心的DGX GH200,速度比蜗牛还慢,还怎么训练AI?

  因此,杰出的技术工程师黄仁勋,在Grace Hopper中,还应用了至关重要的组件“NVLink C2C”。这个组件的核心是NVLink通信协议,将Grace的CPU与Hopper的GPU之间传输数据量的带宽,以900GB/s的带宽速率联系起来,远超常规的64GB/s带宽速率。

  这就是黄仁勋敢于将LPDDR5X内存的CPU容量算到DGX GH200超算机整体存储规格的底气。虽然叠加高容量CPU内存会带来超级延迟的不利后果,但GPU对延迟并不敏感,通过以NVLINK通信协议为核心的NVLINKC2C组件,将CPU的内存变成了GPU内存,以此消除高容量CPU内存带来的延迟。

  这种结构和部件设计,也是DGX GH200超算机引以为傲的可扩展性特征。

  DGX GH200超算机的性能取决于存储空间的大小。144TB还能扩展吗?当然可以。这可通过将Grace Hopper与英伟达Bluefield DPU的接口连接InfiniBand,这样就可进一步扩展到更大的规模,以此来实现更高性能的计算。

  虽然看上去有144TB超级内存空间,900GB/s的传输速率也相当牛逼,但平均下来每组Grace Hopper的带宽也就200GB/s,与144TB共享显存带宽差太远。

  总体来说,对DGX GH200超算机的性能来说,Grace Hopper芯片组的结构设计是关键,而英伟达的NVLink协议具有的超高性能数据互联能力是关键中的关键,核心中的核心。通过提供高达900GB/s的带宽并提供一致性接口,Grace Hopper实现强悍的可扩展性。

  虽然英伟达发布的DGX GH200超算机,其内核Grace Hopper的结构设计和软件超高速一致性内存接口NVLink的奇思妙想,并非是对AGI做的针对性整体解决方案。但是,黄仁勋的技术和结构设计能力肌肉秀,真正的价值是对处于AI生成式技术和应用阶段,对具有超强性能的算力集群产品做出符合AGI阶段的标准定义。

  这里在大多数情况下要简单解释下为什么DGX GH200超算机不是为AGI做出的针对性解决方案,而是主要面向决策式传统AI的推荐系统。

  首先,DGX GH200超算机的核心结构Grace Hopper芯片组发布于2021年。那时虽然AGI也在迭代中,但远远没有像2022年12月OpenAI发布的ChatGPT-3.5此现状级应用带来的轰动效应,因而也没有像现在这样全世界内的广泛关注度。

  其次,从技术原理看,传统AI决策型推荐系统的特点是内存占用大,但计算数据要转换的热数据(指频繁访问的在线类Data)并不多。因此,通行的做法是,通过系统模块设计,在CPU内存中临时存放热数据,再以GPU侧的HMB显存做cache并导入热数据,对带宽和CPU内存速度要求不高。

  大模型的数据转移特征是什么?内存占用也不小,但每次计算来回流动的基本是热数据,少有数据集之类的冷数据。所以就两难,若选择将海量热数据放到LPDDRX5,带宽还是有点不够(毕竟每组Grace Hopper带宽也只有200GB/s);若放冷数据,成本又太高。

  这里还有个问题,就是维护成本极高。Grace Hopper就物理形态看,CPU和GPU还各自独立,这两种芯片互联使用的是PCB板上的走线。在技术逻辑角度,这两种物理芯片的存储空间通过NVLink C2C组件和NVLink协议,被集成为一个整体。

  因此,高度集成的Grace Hopper,但凡坏一块LPDDR5X,整个芯片组就要报废。这样的维护成本,除了巨头比如微软和谷歌这种不差钱的公司,其他公司都难以承受。

  综合来说,Grace Hopper的LLM应用,在DGX GH200超算机的技术丛集中,并没有显现出惊艳的亮点;其结构设计确实表现出色,但这很像是以LLM需求所做的微调。因为这个结构,发布于2021年,那时LLM应用方向也还并不向今日这样如此明确。

  市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务情况或需要。用户应考虑本文中的任何意见、观点或结论是不是满足其特定状况。据此投资,责任自负。

网站地图