Google Cloud宣布其 AI 优化基础设施取得重大进展,包括第五代 TPU 和基于 NVIDIA H100 GPU 的 A3 VM。
事实证明,设计和构建计算系统的传统方法不足以满足生成式人工智能和大型语言模型 (LLM) 等工作负载不断增长的需求。在过去五年中,法学硕士的参数每年激增十倍,这促使人们需要经济高效且可扩展的人工智能优化基础设施。
从构想支持生成式 AI 的变革性Transformer架构,到针对全球规模性能量身定制的 AI 优化基础设施,Google Cloud 一直处于 AI 创新的前沿。
Cloud TPU v5e 成为 Google Cloud 最新产品的焦点。TPU 以其成本效益、多功能性和可扩展性而著称,旨在彻底改变中大规模训练和推理。此次迭代超越了其前身 Cloud TPU v4,为法学硕士和生成式 AI 模型提供了高达 2.5 倍的推理性能和高达 2 倍的每美元训练性能。
Gridspace机器学习主管 Wonkyum Lee表示:
“我们的速度基准测试表明,在 Google Cloud TPU v5e 上训练和运行时,AI 模型的速度提高了 5 倍。
我们还看到推理指标的规模有了巨大改进,我们现在可以在一秒内实时处理 1000 秒的内部语音到文本和情感预测模型,提高了 6 倍。”
Cloud TPU v5e Pod 在性能、灵活性和效率之间取得了平衡,支持多达 256 个互连芯片,拥有超过 400 Tb/s 的总带宽和 100 petaOps 的 INT8 性能。此外,它的适应性也很出色——具有八种不同的虚拟机配置——可容纳一系列 LLM 和生成式 AI 模型大小。
操作的简便性也得到了提升,云 TPU 现在可以在 Google Kubernetes Engine (GKE) 上使用。这一开发简化了人工智能工作负载编排和管理。对于那些倾向于托管服务的人,Vertex AI 通过 Cloud TPU 虚拟机提供各种框架和库的培训。
Google Cloud 加强了对JAX、PyTorch和TensorFlow等领先 AI 框架的支持。
PyTorch/XLA 2.1 版本即将发布,具有 Cloud TPU v5e 支持和用于大规模模型训练的模型/数据并行性。此外,Multislice 技术进入预览阶段,可实现 AI 模型的无缝扩展,超越物理 TPU pod 的限制。
与此同时,新的 A3 VM 由 NVIDIA 的H100 Tensor Core GPU 提供支持,专注于要求苛刻的生成式 AI 工作负载和 LLM,
A3 虚拟机提供卓越的培训功能和网络带宽。它们与 Google Cloud 基础设施的结合预示着一项突破,与之前的迭代相比,训练速度提高了 3 倍,网络带宽提高了 10 倍。
Midjourney创始人兼首席执行官 David Holz评论道:
“Midjourney 是一项领先的生成式人工智能服务,使客户只需按几下按键即可创建令人难以置信的图像。为了给用户带来这种创意超能力,我们利用 Google Cloud 最新的 GPU 云加速器 G2 和 A3。
借助 A3,在 Turbo 模式下创建的图像渲染速度比 A100 快 2 倍,为那些想要极快生成图像的用户提供了全新的创意体验。”
这些进步的发布旨在巩固谷歌云在人工智能基础设施方面的领导地位,使创新者和企业能够打造最先进的人工智能模型。