如果,您正在构建云架构,并设计生成式 AI 驱动的系统。您需要采取哪些不同的措施?你需要做什么来做同样的事情?有哪些新兴的最佳实践?在过去的20年里,特别是在过去的两年里,在建造了其中的一些之后,以下是我们的建议:
明确定义云架构中生成式 AI 的目的和目标。如果我反复看到任何错误,那就是不理解业务系统中生成AI的含义。了解您的目标,无论是内容生成、推荐系统还是其他应用程序。
这意味着写下东西并就目标、如何实现目标以及最重要的是如何定义成功达成共识。这仅在生成式 AI 中并不新鲜;这是在云中构建的每个迁移和全新系统取胜的一步。
我们看到云中的整个生成式AI项目都失败了,因为它们没有很好的理解的业务用例。公司构建的东西很酷,但不会给企业带来任何价值。那行不通。
确定生成式 AI 模型进行训练和推理所需的数据源。数据必须易于访问、质量良好且经过精心管理。您还必须确保云存储解决方案的可用性和兼容性。
生成式 AI 系统高度以数据为中心。我会称它们为面向数据的系统;数据是推动生成式 AI 系统结果的燃料。垃圾进,垃圾出。
因此,将数据可访问性作为云架构的主要驱动力是有帮助的。您需要将大多数相关数据作为训练数据进行访问,通常将其保留在原处,而不是将其迁移到单个物理实体。否则,您最终会得到冗余数据,并且没有单一的事实来源。在将数据馈送到 AI 模型之前,请考虑使用高效的数据管道进行预处理和清理。这确保了数据质量和模型性能。
这大约是使用生成式AI的云架构成功的80%。然而,它最容易被忽视,因为云架构师更专注于生成式人工智能系统处理,而不是为这些系统提供数据。数据就是一切。
正如数据很重要一样,应用于该数据的安全性和隐私性也很重要。生成式人工智能处理可以将看似无意义的数据转化为可能暴露敏感信息的数据。
实施强大的数据安全措施、加密和访问控制,以保护生成式 AI 使用的敏感数据以及生成式 AI 可能产生的新数据。至少要遵守相关的数据隐私法规。这并不意味着在您的架构上固定一些安全系统作为最后一步;必须在每一步都将安全性构建到系统中。
规划可扩展的云资源,以适应不同的工作负载和数据处理需求。大多数公司考虑自动缩放和负载平衡解决方案。我看到的一个更严重的错误是构建扩展性好但非常昂贵的系统。最好在可伸缩性和成本效益之间取得平衡,这是可以做到的,但需要良好的架构和 finops 实践。
此外,检查训练和推理资源。我想你已经注意到,云会议上的大部分新闻都是围绕这个话题的,这是有充分理由的。选择具有 GPU 或 TPU 的适当云实例进行模型训练和推理。再次,优化资源分配以提高成本效益。
根据您的特定用例和要求选择示例性生成 AI 架构(通用对抗网络、转换器等)。考虑使用云服务进行模型训练,例如 AWS SageMaker 等,并找到优化的解决方案。这也意味着要了解您可能有许多连接的模型,这将是常态。
实施可靠的模型部署策略(包括版本控制和容器化),使 AI 模型可供云架构中的应用程序和服务访问。
设置监视和日志记录系统以跟踪 AI 模型性能、资源利用率和潜在问题不是可选的。建立异常警报机制以及为处理云中的生成 AI 而构建的可观测性系统。
此外,持续监控和优化云资源成本,因为生成式 AI 可能是资源密集型的。使用云成本管理工具和做法。这意味着让 finops 监控部署的各个方面 — 最低的运营成本效率和架构效率,以评估您的架构是否最佳。大多数架构需要调整和持续改进。
需要故障转移和冗余来确保高可用性,灾难恢复计划可以在系统故障时最大限度地减少停机时间和数据丢失。必要时实施冗余。此外,定期审核和评估云基础架构中生成 AI 系统的安全性。解决漏洞并保持合规性。
为合乎道德的 AI 使用制定指导方针是个好主意,尤其是在生成内容或做出影响用户的决策时。解决偏见和公平问题。目前有关于人工智能和公平的诉讼,你需要确保你做的是正确的事情。持续评估用户体验,以确保 AI 生成的内容符合用户期望并增强参与度。
无论您是否使用生成式 AI,云计算架构的其他方面都几乎相同。关键是要意识到有些事情更重要,需要更加严谨,总有改进的余地。