新闻公告使用手机扫一扫查看
< 返回

人工智能的发展如何引发数据中心的重新设计

2023-09-27 15:15 作者: 阅读量:1605

正在进行的数据中心重新设计的一个主要方面是,由于人工智能的庞大、复杂的工作负载以及需要添加更多图形处理单元(GPU)、张量处理单元(TPU)或加速器。

这些单元所需的功率和产生的热量,迫使设计人员重新思考什么是可行的和最佳的布局设计。而且,重新设计的成本正在不断增加。

因此,根据Tirias Research的数据,到2028年,业主每年可能会在新的人工智能数据中心基础设施上花费760亿美元。

数据中心当前面临的挑战:当今基于GPU的密集集群

Tom's HardwareAnton Shilov最近评估了人工智能工作负载对GPU的巨大需求:

Omdia表示,Nvidia2023年第二季度实际上售出了900H100处理器。

Omdia估计,Nvidia在第二季度为人工智能(AI)和高性能计算(HPC)应用销售了超过900(180万磅)H100计算GPUOmdia认为,带有散热器的Nvidia H100计算GPU的平均重量超过3公斤(6.6),因此Nvidia在第二季度出货了超过30万台H100

因此,单个Nvidia H100图形处理单元(GPU)的重量约为一个轻型保龄球的重量。Omdia上面计算的重量不包括相关的布线或液体冷却。

Schneider Electric数据中心创新副总裁Steven Carlini表示,用于人工智能的机架必须重新设计,以适应额外的重量和热量。其将当今密集的人工智能服务器集群与整齐分布的成排普通服务器机架进行了对比,这些服务器机架在当代人工智能开始认真发展之前很常见,将整齐的行变成了密集的热运行集群。

Carlini表示,这些人工智能集群每个机架的功耗高达100千瓦,而传统的非人工智能数据中心机架的每个机架功耗高达20千瓦。Carlini的同事、Schneider Electric能源管理研究中心的高级研究分析师Victor Avelar指出,每台Nvidia H100的功耗为700瓦,而旧款A100的功耗为400瓦,后者的需求量仍然很高。两种GPU类型都需要液体冷却。

每个GPU中密集的800亿个晶体管硅区域产生大部分热量。AmazonGoogle等企业正在安装的一台人工智能服务器包含8个这样的GPU。如果设计得当,人工智能服务器集群可以持续100%运行,相比之下,非人工智能AI应用的服务器利用率要低得多。

数据中心能源管理的长远视角

承载当今人工智能工作负载的主要数据中心的所有者,长期以来一直致力于减轻对环境的影响,并且在能源管理方面,他们往往着眼于长远。的确,能源消耗比以往任何时候都高,但现在大部分顶级数据中心容量都是由可再生能源供电,业主正在寻找其他零排放替代方案。例如,Microsoft5月份签署了一份合同,从2028年开始从聚变能源初创企业Helion购买至少50兆瓦的电力。

Victor Avelar致力于量化当今数据中心在其生命周期内的碳足迹,并帮助优化未来数据中心的布局和设计。Avelar在其免费的数据中心生命周期二氧化碳当量计算器上进行了演示,该计算器既关注了隐含碳,如数据中心建设中使用的混凝土的资源、制造和浇筑过程中排放的碳,也关注了数据中心运营过程中产生的碳。

成本计算器帮助规划者考虑替代方案并选择最佳设计标准。例如,Schneider Electric对电源进行了研究。Avelar对比了西弗吉尼亚州的一个燃煤电厂和法国的一个核电厂。

通过按范围查看年度总二氧化碳当量,发现西弗吉尼亚选项的范围2(从当地公用事业购买的电力)排放量在混合排放中所占的比例要大得多。相比之下,法国的选项在范围3(间接能源,例如新数据中心混凝土中的隐含碳)中所占的比例更大。范围1和范围2的排放更多地在规划者的控制范围内。

数据中心所有权的转变

Carlini指出,从历史上看,数据中心往往遵循一种类似购物中心的模式,即主要租户和精品店,所有者只专注于满足当地需求的建筑业务,并管理空间租赁。

但最近,大型云计算、媒体和SaaS提供商在新建数据中心的比例方面更加占据主导地位。对于那些所有者/运营商而言,没有标准的数据中心设计。每个数据中心都是不同的,当前环境下的主要挑战就是跟上所有正在发生的变化。

欢迎莅临参观香港大埔NTT数据中心,更多服务器租用和托管解决方案请咨询我们香港通达网络科技公司

文章来源:千家网

联系我们
返回顶部