- IC型号
企业档案
每年换代,英伟达x86和Arm两手抓
发布时间: 2022/6/15 16:23:55 | 173 次阅读
每年升级的Grace与Hopper
与发布消费级CPU的AMD不同,英伟达在此次Computex上的内容则更加ToB一些,尤其是数据中心。今年年初,英伟达公布了GraceCPU、HopperGPU等一系列数据中心产品,支持不同的配置选项,给到了极高的灵活性。作为CPU+GPU配置的忠实拥护者,英伟达打算将这个战略方针贯彻到底。
此次Computex上,英伟达宣布,其数据中心产品将每两年更新架构,每年更新一批产品,一年针对Arm,一年针对x86。与此同时,英伟达也针对数据中心公布了四项Grace参考设计,分别是面向云游戏的CGX、面向数字孪生与Omniverse的OVX、用于HPC或用于AI训练推理的HGX。
Grace数据中心参考设计/ 英伟达
CGX集成了GraceSuperchipCPU,虽是用于云游戏场景,但该设计并未集成英伟达的消费级GPU,而是采用了面向虚拟桌面VDI应用 A16 GPU,这种选择也很好理解,云游戏追求的就是高密度和低拥有成本,A16 GPU可以完美这一要求。
液冷A100 PCIeGPU / 英伟达
由于数字孪生与Omniverse的工作负载不尽相同,小到对一个物体的复制,大到对整个地球的数字孪生,所以OVX支持多种英伟达GPU。同样为了减轻网络计算的压力,CGX与OVX都用到了BlueField-3 DPU。
HGX则分为两种,一种是主打HPC,一种主打AI训练与推理,前者的瓶颈主要在CPU上,所以仅配置了GraceSuperchipCPU,而后者则更需要CPU+GPU的强强联手,因此,选择了GraceHopperSuperchip。此外,由于HPC领域不少客户用的都是OEM定义的IO系统,所以并没有绑定自家的NVLink,至于AI训练推理这类所需带宽更高的场景,英伟达的第四代NVLink技术无疑是提供可靠性能的选择。
不过Grace与Hopper要想量产还得等到明年,今年数据中心的主角无疑还是A100,而这次A100也迎来了更新。
数据中心的GPU也要液冷散热
在数据中心中,有着这么一个指标,名为PowerUsageEffectiveness功耗使用效率,简称PUE。PUE等于数据中心的总能耗/IT设备能耗,总能耗中包含了散热和配电等系统的能耗,因此PUE值越接近于1,证明该数据中心的能效水平越高。降低这一指标的方式有很多种,其中之一就是从散热入手。
改善散热的一种方式是改善数据中心的散热系统,另一种则是改善IT设备本身的散热系统。而英伟达的GPU此前均是风冷散热,而这次英伟达决定先拿数据中心卖得很火热的A100来尝试液冷散热。
Equinix率先测试了液冷版的A100 80GBPCIeGPU,并与风冷版的A100进行了对比。在对比过程中,单个液冷机架的功耗达到了30kW,是15kW风冷机架的两倍,然而由于液冷的A100只需占据一个PCIe插槽,而风冷版的A100需要两个,所以同样的空间内可以放置两倍的计算资源。
终得出的结果中,用了液冷的A100机架数量可以减少至三分之一,功耗也降低了28%。正是因为这样的散热节能,液冷A100将PUE从风冷GPU的1.6降低至了1.15。很明显,各国的能效方案已经开始望向数据中心,英伟达也必须紧跟这一节能减排的趋势。而明年正式推出的HGX Grace和HGX GraceHopper,也将推出风冷和液冷两种版本。
顶配AMR
为了推行其机器人仿真与数据生成软件IsaacSim,英伟达也公布了其IsaacNovaOrinAMR机器人开发套件的更多情报。该设计集成了两个JetsonAGX Orin芯片,加上两个立体镜头、两个广角镜头、2个2D雷达、8个超声波传感器和一个3D激光雷达,可以说是硬件配置的AMR了。