突破铜缆极限:光学集成如何支撑下一代人工智能基础设施
现代人工智能正在重塑数据中心的未来,推动其架构向能够应对计算、内存、存储和互联带宽空前需求的方向演进。训练ChatGPT和Gemini等万亿参数模型,同时为数十亿设备提供实时推理服务,需要大规模基础设施在规模、效率和性能上实现同步优化。大规模人工智能系统正是这场演进的核心,它们处理着自然语言处理、计算机视觉、基因组学等领域的海量数据集,同时确保训练和推理过程中的高数据吞吐量。
超参数调优、集成学习等先进技术正不断涌现,用以提升模型精度,加速科研突破与跨学科创新。与此同时,这些系统也支撑着自动驾驶、交互式人工智能和机器人等延迟敏感型应用,已成为制造业、物流业、金融业等诸多行业不可或缺的基础,通过人工智能驱动的自动化实现更高效、更动态的运营。
为了保持这一发展势头,数据中心必须超越传统设计,在硬件、网络、散热和能效方面采纳新的方法,以满足人工智能对资源的巨大需求。
人工智能模型:每六个月翻一番
在社交网络时代兴起之时,内容服务提供商建设了大规模的超大规模数据中心,用以支持网络托管、云应用、视频流媒体和企业软件等通用型工作负载。为这些设施提供动力的,是笔记本电脑中常见的那种传统中央处理器。虽然这些CPU功能强大,但其优化方向是通用性,而非专用性。
人工智能的到来,将焦点转向了为人工智能工作负载专门设计的高度专业化处理单元。因此,超大规模数据中心正在经历一场转型:CPU现在主要负责编排和网络任务,而GPU则承担起人工智能训练和推理的巨大计算负担。
GPU专为并行处理而设计,能够支持万亿参数模型的训练,并在全球范围内提供实时推理服务。一次大型的人工智能训练任务消耗的电力可能超过10万千瓦,堪比一个小型城市的能耗,这凸显了所需资源的规模之大。如今,推理已成为无处不在的后台进程,融入从个性化推荐到自动驾驶系统的几乎每一次数字交互之中。
为了支持这一转变,数据中心正演变为为计算密度、大规模并行处理和高速度数据传输而设计的专业化环境。这些“人工智能工厂”越来越多地采用定制加速器、先进互联技术和模块化架构,每机柜的功耗达到了前所未有的水平。
自2010年以来,训练最先进人工智能模型所需的计算量以年均4.4倍的速度增长。相比之下,硬件带宽每两到三年才翻一番。图2展示了以太网/交换机端口带宽的显著提升。其结果就是模型需求与系统能力之间的差距日益扩大,这成为大规模人工智能训练和推理的关键瓶颈。
纵向扩展与横向扩展策略
大规模人工智能系统采用纵向扩展和横向扩展策略,以满足人工智能工作负载的巨大计算需求。纵向扩展,也称为垂直扩展、计算结构或内存语义结构,指的是人工智能计算节点内部的网络架构。其重点是最大化节点内的通信带宽,并最小化节点内各GPU之间的延迟。
横向扩展,也称为水平扩展或后端网络,通过横向增加多个节点来扩展容量,非常适用于分布式计算环境。水平扩展能力使得大量GPU能够无缝集成以满足需求。横向扩展架构增强了负载均衡,提高了容错性,避免了瓶颈,并提供了弹性——能够快速适应不断变化的工作负载。这使得横向扩展非常适合动态应用和具有成本效益的部署。图3展示了如何利用纵向扩展和横向扩展策略构建大规模数据中心。
为了实现纵向扩展,GPU之间通过高速互联进行连接。系统架构师传统上使用板载印刷电路板走线、背板或无源或有源直连铜缆,因为它们成本低廉且能效高。铜互联仍然是纵向扩展网络的主流选择,而光互联则主要用于横向扩展网络。
例如,在英伟达的NVL72系统中,72个GPU通过18个NVLink交换机在一个2.2米高的机柜内连接起来,使用了超过5000条独特的铜缆,每条链路在每个方向上的传输速率为100 Gbps(双向200 Gbps)。然而,随着GPU端口速度和数量的不断增加——即便是在单个机柜内——这些基于铜的解决方案在带宽和传输距离上都正接近其极限。
从铜互联转向光互联的驱动因素
比较224 Gbps与448 Gbps铜线走线的性能,可以突显出在更高数据速率下运行所面临的几个关键挑战。在224 Gbps速率下,铜线走线可以利用先进的设计技术管理较短距离的传输。然而,当数据速率提高到448 Gbps时,由于铜传输线中的频率相关衰减难以支持如此高的频率,铜线走线面临着带宽限制。信号损失和信噪比降低也带来了额外的瓶颈。
当前的横向扩展网络广泛使用400 Gbps、800 Gbps以及即将到来的1.6 Tbps的可插拔光模块。多年来,得益于脉冲幅度调制等调制技术的进步,以及用于改善错误检测和纠正的重定时器与数字信号处理器的应用,可插拔光模块的带宽得以提升。然而,这些改进也显著增加了功耗。例如,一个采用八通道小型可插拔封装规格的、完全重定时的1.6 Tbps可插拔光收发模块,功耗可高达25瓦,其中仅数字信号处理器的功耗就可能达到15瓦。
纵向扩展网络需要每个GPU之间都能互联互通,因此其对每个GPU的互联带宽要求远高于横向扩展网络。如今,由于铜互联的成本效益和能效优势,纵向扩展网络通常局限于单个机柜内。从性能角度来看,扩展到多机柜的纵向扩展网络是可取的,但铜缆的有限传输距离限制了这一可能性。因此,业界对更密集、更低功耗、更具成本效益且可大规模量产的光互联的需求变得至关重要。例如,在一个拥有128,000个GPU的人工智能集群中,如果每个GPU需要1.6T的横向扩展带宽和12.8T的纵向扩展带宽,那么仅纵向扩展网络就需要超过一百万个收发器。
更低的延迟是另一个关键要求,它能实现在高性能计算中增强内存语义、先进的内存架构以及更强大的数据处理能力。这些光互联还必须具备面向未来的能力,支持先进的网络拓扑结构,同时确保下一代人工智能系统的性能和可扩展性。
行业正在积极开发基于线性接口的新兴解决方案,包括线性可插拔光模块、共封装光学、近封装光学以及共封装铜。每种方案都旨在提供更低功耗、更低延迟和更高带宽密度的光互联技术。
可插拔与共封装光学
线性可插拔光模块在人工智能系统中越来越受欢迎,因为它与传统可插拔模块相似,主要区别在于去掉了内部的数字信号处理器。这一设计选择对系统性能有重大影响,因为线性可插拔光模块对主机信号完整性和整体通道损耗预算更为敏感,这可能会限制传输距离并降低跨系统的互操作性。在架构上,线性可插拔光模块保持了与现有网络基础设施的兼容性,便于直接集成和维护。去掉数字信号处理器直接带来了更低的延迟、更低的功耗和更低的成本。线性可插拔光模块还受益于成熟的多供应商可插拔光学制造生态系统,使其成为一种高成本效益的选择。在收发模块中,线性可插拔光模块的功耗最低,用于直连光模块时,每个1.6 Tbps模块功耗约为10瓦。
近封装光学将光学器件放置在靠近专用集成电路的同一印刷电路板上,改善了信号完整性并降低了整体通道损耗,通过省去数字信号处理器实现了更好的能效。这种方法特别适合那些线性可插拔光模块等可插拔模块并不理想的高密度应用。与共封装光学相比,近封装光学只需要对系统进行适度更改,而不是完全重新设计,在灵活性、可扩展性和能效之间提供了实用的平衡。
在共封装光学中,光学器件与专用集成电路共同封装在同一基板上,进一步改善了信号完整性并降低了通道损耗,从而实现更优的能效。尽管共封装光学解决方案需要更复杂的设计,并面临更大的热管理和制造挑战,但它们非常适合需要最高效率和密度的性能密集型环境——例如人工智能数据中心。
共封装铜是一种较新的方法,它将高速铜连接器(而非光学器件)与专用集成电路共同封装在同一基板上。然后,光学器件或其他专用集成电路通过铜质飞线电缆连接,这种电缆损耗低得多,并且避免了从专用集成电路基板到印刷电路板的球栅阵列转换,以及印刷电路板走线带来的更高损耗。这降低了通道损耗并改善了信号完整性,与近封装光学类似,同时允许光学器件安装在离专用集成电路更远的地方。
作为一项新兴技术,共封装铜仍在积极开发中,但通过简化通道设计,它在支持更高数据速率方面显示出巨大潜力——例如每通道200 Gbps的线性可插拔光模块,并最终达到每通道400 Gbps。与完整的共封装光学方案相比,共封装铜提供了一种更具成本效益且更易实施的替代方案。
线性可插拔光模块、近封装光学、共封装光学和共封装铜的能效相似,因为这些方法在光学侧都不使用重定时器或数字信号处理器。
新兴与改进中的协议
为了利用这些集成光学技术进一步支持纵向扩展所需的光互联,网络行业正在推进新的协议并增强现有协议。
面向纵向扩展网络的以太网是一项开放的行业合作,专注于优化标准以太网技术,使其适用于高性能的人工智能纵向扩展基础设施。面向纵向扩展网络的以太网利用并增强了现有以太网生态系统,为单个集群内的人工智能工作负载提供高带宽、超低延迟和无损传输。面向纵向扩展网络的以太网利用这些特性来优化网络层和传输层,从而实现更简单的协议、更小的报头以及XPU之间统一、低开销的内存访问。
该模块化框架建立在三个关键组件之上:用于实现最大互操作性的通用以太网报头;为基于标准机制的人工智能集合通信提供高性能基础的开放以太网数据链路层;以及确保跨各种光学和铜互连选项的供应商互操作性的通用以太网物理层。
与此同时,由超以太网联盟牵头推进的超以太网,正在创建专为人工智能和高性能计算工作负载设计的下一代以太网架构。与传统以太网相比,超以太网旨在提供更高的性能、改进的拥塞管理、更低的延迟和更强的安全性。
这些努力,结合线性驱动光学以及先进封装和互联技术(如共封装光学和共封装铜)的进步,正在为下一代人工智能基础设施奠定基础。这些创新共同将提供人工智能系统处理海量数据吞吐量和实时处理需求所需的性能、可扩展性和效率。这反过来将确保网络能够跟上现代人工智能工作负载前所未有的规模。
突破传统限制
供电和热管理已成为现代数据中心设计的核心。传统机柜的功耗仅为2至5千瓦,而现在面向人工智能的机柜通常需要80至150千瓦,未来部署预计将达到每机柜300千瓦至超过1兆瓦。为了支持这些巨大的需求,数据中心正越来越多地采用高压分布式电流配电架构(400至800伏),以减少转换损耗和传输损耗。
当前超大规模数据中心通常通过多个依赖电感等体积大、损耗高的组件的低压转换级来分配电力。固态变压器实现了一项突破,它能将800伏电压直接、高频地转换为48伏或12伏等较低电压,减少了转换步骤,最大程度地降低了损耗,并提高了功率密度。固态变压器比传统变压器更小、更轻、效率更高。它们还提供先进的监控、故障隔离和双向控制功能,支持可再生能源协议和备用系统。
先进的散热技术也正在涌现,以应对GPU、交换机和密集服务器产生的极端热负荷。解决方案包括直接芯片冷板、后门热交换器和全系统浸没式液冷。能源再利用系统可以捕获并重新利用废热,从而提高可持续性。高功率人工智能硬件、创新散热技术和下一代供电架构的融合,使得数据中心能够高效扩展以应对人工智能工作负载。
开放计算项目的Open Rack V3是一个领先的范例,它通过高效、模块化和可维护性实现了基础设施的现代化。Open Rack V3引入了48伏分布式电流/分布式供电架构,与传统12伏系统相比减少了铜损。它支持每机柜30至60千瓦,并兼容风冷和液冷,非常适合云和企业计算环境。
ORv3-HPR(高功率机架)扩展了ORv3,以应对GPU密集型人工智能和高性能计算工作负载。该设计面向每机柜80至150千瓦的功率,增强了母线,集成了带有冷板和冷却液分配单元的液冷系统,并强化了机械结构以适应高密度部署。Meta的Catalina机架(支持英伟达GB200 Grace Blackwell GPU)就是这一演进的例证。它为下一代人工智能工作负载提供高达每机柜140千瓦的功率。
随着机柜功率向兆瓦级攀升,下一代数据中心正在采用400至800伏的分布式电流/分布式供电架构,以减少铜损并提高效率。一个300千瓦的机柜在48伏电压下电流将高达约6250安培——这远远超出了铜母线能够有效管理的范围。通过在更高电压下分配电力,并使用固态变压器进行本地电压转换,数据中心可以显著降低电流、电阻损耗和基础设施复杂性。
与此同时,传统的冷板正达到其热极限,因为热量仍必须穿过多个材料层。微流体冷却技术将冷却液输送到距离硅芯片仅几微米的位置,实现了高得多的传热效率,并显著缓解了热点问题。结合高压直流配电,这些先进的散热技术提升了可靠性、散热性能、可扩展性并降低了运营成本——为下一代面向人工智能优化的数据中心铺平了道路。
可靠性与环境意识
人工智能数据中心空前的规模和复杂性对可靠性提出了极端的要求。任何停机或性能下降都可能对人工智能训练时间、推理延迟和运营成本产生负面影响。为确保连续运行,数据中心采用了先进的监控、预测性维护和自动化故障转移机制。硬件与软件的协同设计进一步实现了动态资源分配和故障隔离,以降低风险。
环境可持续性也是一个关键的优先事项。数据中心是全球最大的电力消耗者之一,而人工智能工作负载正推动着电力需求的增长。正在进行和计划中的行业举措侧重于可再生能源整合、节水型冷却、碳中和运营以及循环经济实践(如组件回收和再利用)。供电、冷却和光学技术的进步通过提高效率和减少浪费,直接为这些目标做出了贡献。
- 收藏


