一文读懂：截然不同的硅光子技术应用——封装内光学I/O与共封装光学

2024-03-14

尽管封装内光学I/O与共封装光学（CPO）经常被比较，但其中一个是对可插拔模块的替代策略，而另一个是基于芯片的光学互连解决方案。它们分别适用于截然不同的应用。

每种技术的特性——每瓦性能、功率密度、延迟、封装成本和覆盖范围——决定了它们在数据中心中的适用场景和位置，以及它们在硅光子市场的整体定位。下面将对两者进行更深入的探讨，以了解并明确区分它们。

▲利用传统的半导体制造技术在硅片上制造光学元件，为数据中心、人工智能、高性能计算和其他应用的高速数据通信应用提供了更快、更高效的解决方案。由Ayar实验室提供。

硅光子的最新进展正在颠覆数据中心的光学市场，对未来的人工智能、云和高性能计算系统的设计、架构和部署方式产生重大影响。核心问题涉及如何完美地在更远的距离上连接计算芯片，同时保持给定应用可接受的带宽、能量和密度指标。

与此同时，关于互连技术（如共封装光学器件（CPO）、可插拔器件和封装内光学 I/O）之间的差异，存在很多混淆（有些是无意的，有些可能是有意的）。此外，各种行业标准正作用在这些光学连接技术上：或许它们预示着未来的发展？

让我们从一些技术基础知识开始。对于那些不熟悉硅光子的人来说，这是一种在硅集成电路工艺中实现光学元件的方法，利用半导体规模经济来创建光子集成电路(PICs)，使用光来传输和处理数据。与光纤网络一样，这些 PIC 组件可以克服传统铜电连接的许多限制，从而提高数据中心内信号的带宽、延迟、能效和覆盖范围。

共封装与内封装光学器件

因为技术的封装和实现方式多种多样，所以产生了疑问，在数据中心应用程序中如何以及在何处使用 PIC 以获得最佳效果？

目前用于连接数据中心交换机、路由器和服务器的现有技术是可插拔光收发器，它将 PIC 和其他电子芯片组合成一个模块，大约有一包口香糖大小。它们提供板对板和机架到机架级的连接，用于轻松从板面板上插入和拔出光纤电缆，提供板内部电气互连与板外光纤之间的连接。可插拔光学器件的另一个优点是，模块内部收发器的规格可以根据数据速率和网络架构的其他要求进行定制。

虽然易于维护，但随着数据中心的发展以支持更多的人工智能分布式计算工作负载，可插拔设备可能会出现成本、功耗、带宽、占用空间和延迟等问题。

一种常见的可插拔技术替代方案是 CPO 技术，它将可插拔器件（电子驱动芯片和 PIC）中的类似组件组合到单个封装或模块中。这使得 CPO 具有更小的占用空间和更大的带宽密度，从而允许将 CPO 模块放置在更靠近计算机或交换机芯片封装的位置。与可插拔设备相比，这降低了计算机/交换机芯片和 CPO 模块之间的电气连接功率。

另一种选择是封装内光学 I/O。顾名思义，封装内光学技术意味着将电信号转换为光信号的小芯片形式的光互连与用于计算功能（例如 CPU、GPU、专用 IC ）的芯片集成在同一封装中（图 1）。光学 I/O 小芯片封装在与计算或交换机芯片相同的封装中，可实现对距离不敏感的连接解决方案，该解决方案在光纤和连接吞吐量方面具有可扩展性。光学 I/O 可实现跨单板、跨机架、跨计算行的无缝通信，从而在封装内电气互连的带宽密度、能耗和延迟的基础下创建分布式计算系统。

▲封装内光 I/O 将光互连集成到与用于计算功能的芯片相同的封装中。这种方法实现了基于光子而不是电力的芯片间连接，并可能实现更高效的分布式计算系统。由 Ayar Labs 友情提供。

在最基本的层面上，CPO 可以被视为专门针对数据中心网络的，而封装内光学 I/O 旨在在电路板、机架或系统级芯片之间建立直接连接。

进化与革命

另一种看待这个问题的方式是把它看作是进化与革命。如前所述，CPO 是一个自然的替代品——也就是说，与支持数据中心内网络系统的光可插拔设备相比，CPO 是向前发展的一步。这些可插拔模块目前代表着一个巨大的市场，带宽密度和效率的提高是受欢迎的，也是非常需要的。

另一方面，封装内光学 I/O 是一场新兴的革命，它迎合了一个新的市场。具体而言，该技术提供了实现新的数据中心计算结构（如内存语义结构）所需的低延迟、高带宽、覆盖范围和能源效率，这些结构是为机器学习横向扩展、资源分解和内存池量身定制的。可以将其视为将光学技术的优势从服务器和机架级别转移到主板和芯片级别。它将允许分布在数据中心的大量 GPU 集合大规模运行，并直接与分解的内存进行通信。

当然，推动所有些发展的是人工智能对更多计算资源日益增长的渴望。训练这些 AI 模型需要连接数千个 GPU（包括计算能力和内存占用），以实现下一代数据中心基础设施。例如，英伟达正在将其NVLink内存语义结构扩展到其DGX服务器之外，这些服务器通常托管 8 个 H100 GPU。它使用两级 NVLink 结构将多达 256 个 H100 GPU 直接连接到一个组中，并使用 NVIDIA 的 InfiniBand 网络将更多组连接在一起。很明显，这种结构扩展将继续下去，无论是在基数（即支持的节点数）还是带宽方面。随着人工智能市场的发展，它将需要光学I/O等解决方案来促进结构扩展的转变-这就是行业参与者在封装光学方面投入巨资的原因。

内部封装光学 I/O

尽管 CPO 和封装内光学 I/O 都依赖于硅光子技术，但从模块级别或更深层次来看，在封装内光学 I/O 小芯片的设计上可以看到显著差异。

这些小芯片采用CMOS工艺制造，并组装成单片2D或2.5D封装，与跨阻放大器、驱动器、均衡和控制电子器件以及光波导、调制器和检测器紧密集成。它们支持宽并行接口，以实现以高带宽密度和高能效为特征的封装内通信。为了确保接口兼容性，市场正在围绕UCIe (Universal Chiplet Interconnect Express)标准和 NVLink-C2C进行整合。这种标准化对于市场发展至关重要。

这些集成芯片中的光链路通过利用并行性来实现最佳的能源效率，并行性是CMOS芯片设计中的一个共同特征，允许同时执行两个或多个操作，每个操作的速度较低，但具有双倍的聚合操作吞吐量。这些芯片使用标准波分复用（WDM），由微环谐振器实现，微环谐振器可以选择性地调制和解调每根光纤中的多个波长。这些光子器件由一组镜子和其他元件排列组成，这些元件将光波绕成一个圆圈，直到达到目标波长。微环比传统以太网收发器中的光器件小1000倍，这使得它们可以与链路电子器件集成在同一芯片上，并在同一芯片上集成多个光纤连接。使用这些技术，最新一代的芯片通过8个光端口(64个波长)实现了4096 Gbps的双向吞吐量。

▲微环谐振器允许每个光纤有多个波长，每个芯片有多个光纤。由Ayar实验室提供。

由于能源效率对这些应用至关重要，因此该芯片使用每根光纤的波长，而不是增加激光功率和电子速率来提高每波长的数据速率。因此，数据吞吐量可以通过增加更多的波长和光学端口来扩展，而不必牺牲能源效率。

将这种封装内光学I/O方法与CPO模块进行对比，它不会将光学器件集成在与交换机或计算片上系统（SoC）相同的封装中。典型的配置可能会安排16个CPO模块，每个模块都有自己的封装，在中间板上围绕一个单独封装的交换机。虽然这种方法可以更准确地描述为“近封装光学器件”，但它是由共封装光学合作联合发展论坛（the Co-Packaged Optics Collaboration Joint Development Forum）和光互联论坛(Optical Internetworking Forum，简称OIF)指定的一种外形因素。

数据展示

归根结底，CPO 与封装内光学 I/O 的性能和效率特征将决定每种产品在市场中的适用范围和理由。

在比较光互连技术时，海岸线带宽密度（即边缘的数据传输能力）和能效是关键指标之一。芯片，以及芯片和电路板的封装在其边缘的空间是有限的，这是发生数据连接和散热的地方。将各种接口与其传输距离能力进行绘图对比，说明了一种技术在给定距离内以较低能耗传输大量数据的能力。因此，这种比较有助于确定封装是否可用于实现分布式计算解决方案。

▲不同互连解决方案的海岸线带宽密度与能效的乘积与传输距离的关系图。海岸线带宽密度和能效反映了芯片、板卡或封装如何高效地使用其边缘有限的空间来进行接口连接。不同的接口也提供了不同的传输距离能力。此图由Ayar Labs提供。

在封装级别上，应用带宽密度（Gbps/mm）除以能效（pJ/b）这一指标来衡量，UCIe高级接口配合2.5D集成技术提供了最高的带宽/效率比，但这种优势仅限于几毫米的范围内。

电气UCIe标准和NVLink-C2C连接在带宽密度/能效方面稍逊一筹，但它们提供了稍远的传输距离。这两种连接都可以利用标准有机基板实现封装内的芯片到芯片的连接，从而降低了封装成本。这些连接不仅提供了高海岸线带宽密度，还具有良好的能效，但遗憾的是，它们的传输距离仅限于SoC封装内部。

通过利用封装内的光学I/O进行这些集成连接，相同的带宽密度和能效可以扩展至大型分布式计算系统中的任何位置，至少可以达到数百米的传输距离。

在这个规模上，CPO技术大约低一个数量级。但是，它提供了比封装内设计更高的模块化程度，提供了比 PCIe Gen5 更大的覆盖范围，并且在性能和密度/效率方面相较于当前的光学可插拔模块具有优势。

另一个重要的指标是面积带宽密度（Gbps/mm²）和能效。对于计算应用来说，封装空间非常宝贵，因为它们通常使用的封装比大型网络交换机更小。因此，这些封装需要高效利用其有限的面积来容纳计算芯片和内存堆栈，留给I/O的空间就很少了。

面积带宽密度决定了在拥挤的机架和数据中心环境及设置中，封装技术可以如何以及在哪里使用。下图展示了这种空间效率，显示了封装内光学I/O与电气互连解决方案的邻近关系，其中CPO更接近于用于网络的典型解决方案。

▲各种互连解决方案的面积带宽密度与能效的乘积与传输距离的关系图。感谢Ayar Labs提供此图。

延迟，即信号在网络上的传输时间，是另一个重要的指标。虽然低延迟对于机器学习扩展和内存语义结构至关重要，但对于传统的网络应用来说，其重要性相对较低。简单来说，延迟不佳会阻碍芯片并行操作的能力，以及它们作为一个整体与分散内存进行协调通信的能力。对于这类应用来说，理想的情况是延迟应该与当前板级铜电连接相当。低误码率（BER）同样至关重要，因为较高的BER会增加前向错误校正的需求，进而增加延迟。

目前，封装内的光学I/O芯片可实现5 ns(纳秒)的延迟，且原始误码率目标为10−15。当前的CPO模块，就像它们的可插拔对应模块一样，需要前向错误校正来实现这样的误码率目标，但会以牺牲100至150 ns的信号延迟为代价。

另一个重要的指标是互连解决方案的成本效益，通常以Gbps/美元来衡量。由于可插拔光学组件所包含的离散元件数量及其模块组装问题，它们通常难以突破1 Gbps/美元的壁垒。目前，CPO模块也面临着类似的问题。虽然无法预测未来，但逻辑上我们可以假设CPO将遵循与可插拔模块相似的成本轨迹。幸运的是，这在网络应用中并不是障碍，因为大部分成本都集中在交换机上。此外，许多服务器的吞吐量需求相对较低，因此对成本/Gbps的要求也较低。

对于高性能分布式计算来说，情况则有所不同。因为每个计算单元（即CPU、GPU等）需要一到两个数量级更高的封装外互连吞吐量，才能连接到分布式架构的其他部分。因此，对于使用CMOS技术降低成本的基板级集成，人们更关注封装内的光学I/O解决方案。这就解释了为什么最近的设计决策倾向于在同一CMOS芯片上进行电子-光子链路集成，以及将这些芯片与计算SoC集成到同一封装中。

希望这些考虑因素能够解释为什么CPO和封装内光学I/O是令人兴奋的光子学突破，尽管它们分别适用于截然不同的应用，但每种技术的特性——每瓦性能、功率密度、延迟、封装成本和覆盖范围——决定了它们在数据中心中的适用场景和位置，以及它们在硅光子市场的应用。

原文：Understanding In-Package Optical I/O Versus Co-Packaged Optics | Features | Mar 2024 | Photonics Spectra