微型数据中心:人工智能计算的未来?

虽然科技巨头为人工智能建立了大规模的数据中心,但专家认为较小的分布式设施可能会更加高效和可持续。
随着人工智能继续在各行业快速扩张,传统观点认为数据基础设施越大越好。谷歌、微软和亚马逊等科技巨头正在建设占地数十万平方英尺的巨大数据中心,旨在满足人工智能工作负载的海量计算需求。然而,越来越多的行业专家对这种方法提出质疑,认为更小、更分布式的数据设施实际上可能代表了人工智能计算的未来。
当前向超大规模数据中心发展的趋势是由这样的信念推动的:集中式大型设施可提供小型设施无法比拟的规模经济和运营效率。这些设施通常消耗与小城市一样多的电力,容纳了数千台高性能服务器和专用人工智能芯片,旨在训练和运行复杂的机器学习模型。其中最大的设施可能花费数十亿美元来建造,并且需要大量的电力和冷却基础设施来维持最佳的运行条件。
尽管大规模基础设施建设背后有明显的逻辑,但一些技术专家和研究人员质疑如此庞大的设施对于有效的人工智能部署是否真的必要。麻省理工学院计算机系统研究员 Sarah Chen 博士解释说,当前的方法可能存在根本缺陷:“我们正在将 20 世纪的思维应用于 21 世纪的问题。集中化等于效率的假设在分布式计算和边缘处理时代并不一定成立。”
支持小型数据中心的论点基于挑战传统规模经济模型的几个令人信服的因素。首先,分布式计算架构通常可以实现类似的性能水平,同时提供更大的弹性和更少的延迟。当人工智能处理通过更小的、战略性的设施靠近最终用户时,应用程序可以比依赖遥远的大型中心更快、更可靠地响应。

能源效率是人工智能基础设施“越小越好”的另一个重要优势。虽然大型数据中心无疑受益于冷却和配电方面的规模经济,但它们也因需要长距离传输数据和维持大量闲置容量而导致效率显着低下。 分布式人工智能处理可以消除许多传输损耗并实现更精确的容量匹配,从而潜在地降低总体能耗。
人工智能计算资源的地理分布还在监管合规性和数据主权方面提供了巨大的好处。随着世界各国政府实施更严格的数据保护法和本地存储要求,较小的区域设施比大规模集中式设施更容易适应不同的法律框架。随着人工智能应用扩展到医疗保健、金融和政府服务等敏感领域,这种灵活性变得尤为重要。
随着这些系统消耗越来越多的电力,人工智能基础设施对环境的影响已成为越来越紧迫的问题。传统的大型数据中心通常依赖于可能包含大量化石燃料成分的集中式电网,而较小的分布式设施可以更轻松地与当地可再生能源集成。太阳能电池板、风力涡轮机和其他清洁能源技术可以更有效地满足小型装置的电力需求。
在许多场景中,成本考虑也有利于分布式模型。虽然大型设施中计算能力的单位成本可能较低,但总拥有成本包括房地产、监管合规性和风险管理等因素。 较小的数据中心通常可以部署在成本较低的地点,并且可以根据实际需求逐步扩展,从而降低与大量前期投资相关的财务风险。

但是,向小型人工智能基础设施的过渡并非没有重大挑战和限制。主要障碍之一是当前人工智能算法和模型的设计,其中许多算法和模型专门针对大型服务器集群的并行处理能力进行了优化。训练高级语言模型或计算机视觉系统通常需要数千个同时工作的处理器的协调工作,而分布式较小的设施可能难以有效地实现这一目标。
管理分布式人工智能系统的技术复杂性也带来了巨大的运营挑战。虽然单个大型数据中心可以由集中的专家团队进行监控和维护,但多个较小的设施需要更复杂的远程管理功能和可能更多的操作人员。这种复杂性可能会抵消分布式方法的一些理论上的成本优势。
网络连接是分布式人工智能基础设施的另一个重大技术障碍。大规模人工智能训练和推理通常需要处理节点之间的极高带宽连接,这可能很难在地理分布的设施中可靠地实现。与广域网相关的延迟和潜在可靠性问题可能会严重影响分布式人工智能系统的性能。
行业领导者开始探索结合集中式和分布式人工智能基础设施元素的混合方法。 NVIDIA 和英特尔等公司正在开发新的架构,允许人工智能工作负载根据当前需求、可用资源和性能要求在多个设施之间动态分配。这些混合人工智能系统可能会发挥这两种方法的优点,同时最大限度地减少各自的缺点。
来源: BBC News


