Pure Storage CTO:AI时代数据中心能源、水源紧缺,全闪存方案将是最佳最环保选择
来源: Datatechvibe原文标题: The Impact of AI on Storage
作为一项具有巨大但未实现潜力的技术,人工智能长期以来一直被提上企业议程。今年,由于 Microsoft 对 OpenAI 的 100 亿美元投资,以及 Meta、谷歌和其他公司在生成式 AI 方面的战略举措,它无疑已经进入了超速状态。尽管多年来我们已经看到了人工智能的许多进步,并且可以说在它的广泛采用中也出现了许多虚假的曙光,但现在毫无疑问,它将继续存在。因此,现在是首席技术官和IT团队考虑即将到来的人工智能驱动时代的影响的时候了。
就其对技术部门和整个社会的可能影响而言,人工智能可以比作关系数据库的引入,因为它是点燃了对大型数据集的广泛欣赏的火花,引起了最终用户和软件开发人员的共鸣。人工智能和机器学习可以被看作是相同的,因为它们不仅为构建强大的新应用程序提供了形成性的基础,而且还增强和改进了我们与突破性技术以及大型和不同数据集的互动方式。我们已经看到这些发展如何帮助我们比以前更快地解决复杂的问题。
https://datatechvibe.com/wp-content/uploads/The-impact-of-AI-on-storage-696x392.jpg
了解 AI 数据存储挑战
要从数据存储的角度理解人工智能带来的挑战,我们需要看看它的基础。任何机器学习功能都需要训练数据集。在生成式人工智能的情况下,数据集需要非常庞大和复杂,包括不同类型的数据。
生成式人工智能依赖于复杂的模型,它所基于的算法可以包含它负责学习的大量参数。预期输出的特征数量、大小和可变性越多,在开始推理之前,数据批量大小的水平与训练运行中的纪元数相结合的水平就越大。
生成式人工智能的任务本质上是根据数据集进行有根据的猜测或进行推断、回归或分类。模型必须处理的数据越多,获得准确结果或最小化误差/成本函数的机会就越大。在过去的几年里,人工智能稳步推动了这些数据集的规模上升。尽管如此,Chat** 和其他生成式 AI 平台所依赖的大型语言模型的引入,其规模和复杂性增加了一个数量级。这是因为在 AI 模型训练过程中出现的学习知识模式需要存储在内存中——这对于更大的模型来说可能是一个真正的挑战。
检查点大型和复杂的模型也给底层网络和存储基础设施带来了巨大的压力,因为在内部数据全部保存在检查点中之前,模型无法继续;如果作业崩溃或错误梯度没有改善,这些检查点将充当重新启动点或恢复点。
鉴于数据量与人工智能平台的准确性之间的联系,因此,投资于人工智能的组织将希望建立自己的非常大的数据集,以利用人工智能提供的无限机会。这是通过利用神经网络来识别现有数据中的模式和结构,以创建新的专有内容来实现的。由于数据量呈指数级增长,因此组织能够利用最密集、最高效的数据存储来限制庞大的数据中心占用空间以及随之而来的不断攀升的电力和冷却成本,这一点比以往任何时候都更加重要。这带来了另一个挑战,该挑战开始成为一个重大问题——大规模扩大的存储要求对到 2030-2040 年实现净零碳目标的影响。
人工智能将影响可持续发展的承诺,因为在二氧化碳足迹和功耗已经是一个主要问题的时候,它对数据中心提出了额外的要求。这只会增加组织的压力,但可以通过与合适的技术供应商合作来适应和管理。最新的 GPU 服务器每台消耗 6-10kW 的功率,而大多数现有数据中心的设计速度都不能为每个机架提供超过 15kW 的功率,因此随着 GPU 部署规模的增加,数据中心专业人员面临着巨大而迫在眉睫的挑战。
最适合 AI 的闪存
一些技术供应商已经在产品设计中解决可持续性问题。例如,全闪存存储解决方案的效率比旋转磁盘 (HDD) 解决方案要高得多。一些供应商甚至超越了现成的固态硬盘,创建了他们的闪存模块,允许全闪存阵列直接与原始闪存通信,从而最大限度地提高闪存的功能,并提供更好的性能、功耗和效率。
除了比 HDD 更具可持续性外,闪存也更适合运行 AI 项目。结果的关键是将 AI 模型或 AI 驱动的应用程序与数据连接起来。要成功做到这一点,需要大量且多样化的数据类型、训练作业的流带宽、检查点(和检查点恢复)的写入性能、推理的随机读取性能,至关重要的是,所有这些都需要 24×7 全天候可靠且易于跨孤岛和应用程序访问。这组特征对于支撑您的运营的基于 HDD 的存储来说是不可能的;需要全闪存。
数据中心现在面临着一个次要但同样重要的挑战,人工智能和机器学习的持续兴起将加剧这一挑战。那就是用水量,这将成为一个更大的问题——特别是考虑到全球气温的持续上升。
许多数据中心采用蒸发冷却,其工作原理是将细小的水雾喷到布条上,环境热量被水吸收,从而冷却周围的空气。这是一个聪明的想法,但考虑到气候变化给水资源带来的额外压力,尤其是在建成区,这是有问题的。
因此,这种冷却方法在过去一年中已经失宠,导致依赖更传统的、电力密集型的冷却方法,如空调。这是转向全闪存数据中心的另一个原因,这些数据中心的功耗要低得多,并且没有与 HDD 和混合数据中心相同的密集冷却要求。
人工智能和数据存储的未来之路
随着 AI 和 ML 的继续快速发展,人们将更加关注数据安全性(以确保流氓或对抗性输入无法改变输出)、模型可重复性(使用 Shapley 值等技术来更好地了解输入如何改变模型)和更强的道德规范(以确保这种非常强大的技术用于造福人类)。
所有这些有价值的目标都将对数据存储提出越来越多的新要求。存储供应商已经将这一点纳入其产品开发路线图,因为他们知道首席技术官将寻找安全、高性能、可扩展、高效的存储解决方案来帮助他们实现这些目标。重点不应完全放在数据存储硬件和软件的功能上,大局确实非常大。 AI是未来之路。。。。。。。。。。。。
页:
[1]