高剪机

赛道Hyper 英伟达超算机：定义AGI算力集群

来源：米乐棋牌发布时间：2023-11-02 13:43:16

　　英伟达创始人兼CEO黄仁勋，不但是个出色的技术工程师，也是位杰出的市场管理专家和营销大师。

　　黄仁勋的营销才能，从其对GPU的定义可以窥视。原先，GPU只是一张显卡，后来黄仁勋将服务器也称为GPU。最近，“黄氏”GPU定义，已扩展至CPU叠加GPU内存算力集群。

　　英伟达最近发布的超级计算机DGX GH200，从参数上看，性能极为惊人，结构也堪称精巧。但是，从技术原理上看，DGX GH200原本很可能并非为AI集训所设计，其内核Grace Hopper是决策型AI（为AI推荐系统所用）性质。

　　从结构设计上看，DGX GH200从决策型AI“转型”到LLM方向，但其真正价值并非为LLM定制，而是其可扩展性、以及将CPU内存与GPU内存，通过NVLINK C2C组件整合起来的技术，以此来实现黄仁勋将GPU的定义扩展为超算集群的逻辑自洽。

　　黄仁勋将Grace Hopper称为“superchip”（超级芯片），这很像是一种营销表达。

　　实际上，Grace是CPU，确实是为AI而生，但本身的技术特性不是高性能CPU算力，而是能耗控制。换句话说，Grace负责还过得去的算力性能；Hopper则是GPU，与印象中的英伟达GPU负责AI算力不同，“Grace Hopper”中的Hopper，负责的是散热。

　　根据英伟达技术白皮书显示，Hopper是英伟达基于Hopper架构的GPU（即H100系列），而Grace则是英伟达自研的基于ARM架构的高性能CPU。

　　通过LPDDR5X（内存）通信接口，Grace接了高达512GB的内存（实际480GB），内存带宽也达到546 GB/s；Hopper（GPU）则通过HBM3（显存）接口接了最多96GB的显存，带宽可达3TB/s。

　　LPDDR有时候也等同于Low Power Double Data Rate SDRAM，中文全称“低功耗双信道同步动态随机存取内存”。通常，这以先进封装技术直接堆在CPU处理器上方，以低功耗和小体积著称，是移动应用场景的主流内存产品。

　　基于LPDDR5的性能基础，LPDDR5X更进一步：数据传输速率从6400Mbps增至8533Mbps，对于支持8533Mbps LPDDR5X内存的移动SoC，其峰值理论可用带宽将进一步增长到68.26GB/s，从而赋予更广泛的设备拥有更多基于AI和5G的功能。

　　Grace用了LPDDR5X，就其16GB的容量而言，即使用了8片，CPU的总容量也只有128GB，远远达不到决策AI所需要的存储空间，更遑论对LLM的容量支持要求。但黄仁勋采用了新的结构，也就是集成8颗Grace CPU，还将之互联成一个Unified Memory。

　　乍看上去，如此神一样存在的存储容量令人惊叹。但实际上，Grace Hopper的整体容量，除了内存还包括显存，这是从所未见的结构设计。但这种结构忽略了CPU同样令人惊奇的延迟。

　　这问题该如何来解决？若解决不了，以Grace Hopper为核心的DGX GH200，速度比蜗牛还慢，还怎么训练AI？

　　因此，杰出的技术工程师黄仁勋，在Grace Hopper中，还应用了至关重要的组件“NVLink C2C”。这个组件的核心是NVLink通信协议，将Grace的CPU与Hopper的GPU之间传输数据量的带宽，以900GB/s的带宽速率联系起来，远超常规的64GB/s带宽速率。

　　这就是黄仁勋敢于将LPDDR5X内存的CPU容量算到DGX GH200超算机整体存储规格的底气。虽然叠加高容量CPU内存会带来超级延迟的不利后果，但GPU对延迟并不敏感，通过以NVLINK通信协议为核心的NVLINKC2C组件，将CPU的内存变成了GPU内存，以此消除高容量CPU内存带来的延迟。

　　这种结构和部件设计，也是DGX GH200超算机引以为傲的可扩展性特征。

　　DGX GH200超算机的性能取决于存储空间的大小。144TB还能扩展吗？当然可以。这可通过将Grace Hopper与英伟达Bluefield DPU的接口连接InfiniBand，这样就可进一步扩展到更大的规模，以此来实现更高性能的计算。

　　虽然看上去有144TB超级内存空间，900GB/s的传输速率也相当牛逼，但平均下来每组Grace Hopper的带宽也就200GB/s，与144TB共享显存带宽差太远。

　　总体来说，对DGX GH200超算机的性能来说，Grace Hopper芯片组的结构设计是关键，而英伟达的NVLink协议具有的超高性能数据互联能力是关键中的关键，核心中的核心。通过提供高达900GB/s的带宽并提供一致性接口，Grace Hopper实现强悍的可扩展性。

　　虽然英伟达发布的DGX GH200超算机，其内核Grace Hopper的结构设计和软件超高速一致性内存接口NVLink的奇思妙想，并非是对AGI做的针对性整体解决方案。但是，黄仁勋的技术和结构设计能力肌肉秀，真正的价值是对处于AI生成式技术和应用阶段，对具有超强性能的算力集群产品做出符合AGI阶段的标准定义。

　　这里在大多数情况下要简单解释下为什么DGX GH200超算机不是为AGI做出的针对性解决方案，而是主要面向决策式传统AI的推荐系统。

　　首先，DGX GH200超算机的核心结构Grace Hopper芯片组发布于2021年。那时虽然AGI也在迭代中，但远远没有像2022年12月OpenAI发布的ChatGPT-3.5此现状级应用带来的轰动效应，因而也没有像现在这样全世界内的广泛关注度。

　　其次，从技术原理看，传统AI决策型推荐系统的特点是内存占用大，但计算数据要转换的热数据（指频繁访问的在线类Data）并不多。因此，通行的做法是，通过系统模块设计，在CPU内存中临时存放热数据，再以GPU侧的HMB显存做cache并导入热数据，对带宽和CPU内存速度要求不高。

　　大模型的数据转移特征是什么？内存占用也不小，但每次计算来回流动的基本是热数据，少有数据集之类的冷数据。所以就两难，若选择将海量热数据放到LPDDRX5，带宽还是有点不够（毕竟每组Grace Hopper带宽也只有200GB/s）；若放冷数据，成本又太高。

　　这里还有个问题，就是维护成本极高。Grace Hopper就物理形态看，CPU和GPU还各自独立，这两种芯片互联使用的是PCB板上的走线。在技术逻辑角度，这两种物理芯片的存储空间通过NVLink C2C组件和NVLink协议，被集成为一个整体。

　　因此，高度集成的Grace Hopper，但凡坏一块LPDDR5X，整个芯片组就要报废。这样的维护成本，除了巨头比如微软和谷歌这种不差钱的公司，其他公司都难以承受。

　　综合来说，Grace Hopper的LLM应用，在DGX GH200超算机的技术丛集中，并没有显现出惊艳的亮点；其结构设计确实表现出色，但这很像是以LLM需求所做的微调。因为这个结构，发布于2021年，那时LLM应用方向也还并不向今日这样如此明确。

　　市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务情况或需要。用户应考虑本文中的任何意见、观点或结论是不是满足其特定状况。据此投资，责任自负。

上一篇: 我国重汽全主动电脑裁剪机投入运转