微纳制造
服务信息网

集成光子计算性能指标量化评估:三种核心架构案例研究与异构方案验证

2025-11-15

作者:

Frank Brückerhoff-Plückelmann1,2

, Jelle Dijkstra2

, Julian Büchel1

, Bottyan Batkai2

, Falk Ebert2

, Luis

Mickeler3

, Urs Egger2

, Abu Sebastian1

, Wolfram Pernice2

, Ghazi Sarwat Syed1



机构:


1IBM Research – Europe, 8803 Rüschlikon, Switzerland

2University of Heidelberg, Kirchhoff-Institut für Physik, 69120 Heidelberg, Germany


3Physical Institute, University of Münster, Heisenbergstraße 11, 48149 Münster, Germany


介绍:

计算能力的需求正以前所未有的速度增长,尤其是在人工智能(AI)应用复杂度不断提升的推动下。通常,这些模型由线性和非线性函数组合构成,使其成为具有高表达能力的系统,能够逼近数据中的复杂关系。新兴硬件架构日益注重将内存与线性处理单元同址部署,或至少使其足够靠近,以规避内存瓶颈。为满足这些需求,专用数字加速器已被开发出来,例如用于矩阵乘法的脉动阵列 ¹。这些加速器助力实现了最先进的 AI 模型,对多个领域产生深远影响,包括 AlphaFold 实现蛋白质结构预测等科学突破 ²。然而,尽管成效显著,这些数字加速器功耗极高,而最新的 AI 模型仍在不断将其推向性能极限。
受生物大脑中模拟计算卓越效率的启发,探索模拟处理器作为下一代硬件加速器具有重要意义。这类加速器不依赖抽象数字编码,而是直接利用器件和电路的物理特性。数据被直接编码为物理量(例如光脉冲的功率),计算通过操控这些物理量实现 ³(例如借助可调吸收器)。在电子领域,此类加速器已发展到能够在系统层面执行实际任务的水平⁴。与此同时,光子模拟处理器虽在架构和集成开发方面仍处于较早阶段⁵⁻⁸,但相比电子同类产品具有独特优势,例如更高的带宽和更低的传输损耗。光子处理器有着广泛的设想架构和应用场景。自由空间光计算凭借其三维特性,自然支持大规模矩阵运算,但与集成解决方案相比,在制造可扩展性方面面临挑战⁹⁻¹⁰。不同方案的输入 / 输出接口也存在显著差异。例如,将传感器信号直接传入光子处理器,可通过对传统数字信号处理任务进行模拟域处理,大幅提升性能 ¹¹⁻¹²。
然而,性能估算往往假设存在理想、无缝的电子 - 数字接口以及大规模集成。实际上,除模数转换外,输入 / 输出操作还需进行光电转换,这会影响整体计算性能。鉴于此,本文对光子计算方案提供了乐观且贴合实际的性能估算。我们重点研究三种主流线性光子处理器架构,即微环谐振器(MRR)权重库、光子交叉开关和马赫 - 曾德尔干涉仪(MZI)网格 —— 这些架构已显示出全片上集成潜力,且已得到商业层面的研发投入。我们首先分析导致光子加速器外围开销的关键组件,尤其关注与模数转换和数模转换相关的功耗及面积成本。接着,我们对比多种用于编码有符号权重和输入的映射技术。随后,我们评估这些光子架构的计算性能。在此过程中,我们识别出若干源于光学物理特性、限制光子处理器设计的根本性挑战。最后,我们探索如何利用光子计算的优势同时缓解其约束,并展示光子与电子内存内处理器混合系统的实现方式。


结果:
模拟光子处理器与当前主流的数字及电子基础设施进行接口连接存在若干挑战。需生成光载波信号,且数字电子信号需转换并耦合至光波。同样,光子处理完成后,光信号必须转换回电子信号,并映射到数字编码方案,如图 1 所示。


图 1. 集成线性处理器的系统架构
数字接口输出带符号 INT8 值,这些值通过数模转换器(DAC)中的脉冲幅度调制转换为电子脉冲。电光调制器(EOM)将这些脉冲耦合至高频光载波信号。光子电路对编码后的输入信号进行处理,光电探测器(PD)将光信号转换回电子域。平衡读出方案可支持负权重。跨阻放大器(TIAs)将光电探测器的输出电流转换并放大至电压域。最终,模数转换器(ADCs)将模拟信号映射回带符号 INT8 值,再传输至数字接口。

为使不同处理器架构具备可比性,我们采用脉冲幅度调制,围绕电光调制器的偏置点进行编码,并采用非相干探测方式。在输出端,我们采用平衡探测方案以支持负权重,且要求光子处理器提供的信号摆幅需达到读出电子设备输入等效噪声的 50 倍,从而实现与 4 位权重量化数字系统相当的精度。输出电子设备还配备高通滤波器,用于去除低频噪声并支持负输入值⁷、¹³。我们假设光子路由中的无源组件为理想状态,仅考虑架构选择及存储单元的影响。各仿真步骤的详细说明见【方法】部分。

微环权重库
微环谐振器(MRR)权重库采用广播与权重架构,如图 2a 所示。编码在不同波长上的输入信号先被多路复用,随后均匀分配至 N 个权重库。每个权重库内,每个波长通道对应一个可调谐上下话路环谐振器,用于存储权重信息。通过单独调谐环谐振器的谐振波长,可实现每个向量分量在正负输出端之间的任意分配⁶、¹⁴。


图 2. 微环谐振器库的性能表现
a,输入信号经多路复用器(MUX)合并后,同时广播至所有权重库。每个库内为每个输入波长分配一个上下话路滤波器,将信号在正负输出端之间拆分。
b,可用光带宽总量限制了 MRR 架构的可扩展性。为实现线性加权,每个谐振器的带宽必须显著超过信号带宽。硅基上下话路滤波器的典型自由光谱范围约为 1 太赫兹,而整个光 C 波段跨度为 4 太赫兹,这为矩阵尺寸设定了上限。
c,对于非易失性存储器(NVM),计算效率随矩阵尺寸稳步提升;而挥发性存储器(VM)的静态功耗限制了其可实现的效率。
d,计算密度达到饱和值,该值由单个权重的物理尺寸决定,VM 与 NVM 方案的这一数值相近。当光子电路成为面积的主要贡献者时,提高工作频率可提升计算密度。

可用光带宽与环形谐振器的自由光谱范围(FSR)会限制系统的可扩展性。以采样频率 fs 对光载波进行调制时,会使载波带宽增加 fs,这是因为载波与电子信号混频后,会在两侧产生边带,边带带宽由电子信号带宽 fs/2 决定。为实现线性加权功能且不扭曲脉冲形状,环形谐振器的半高全宽必须显著更大,即约为光带宽的 M=10 倍 ¹⁵。因此,对于 N×N 的 MRR 权重库,环形谐振器的 FSR 必须至少满足:


环形谐振器的半径决定了自由光谱范围(FSR),进而决定了可部署且无串扰的波长通道数量。尽管在绝缘体上硅(SOI)平台上可实现低至 3 微米的弯曲半径 ¹⁶,但实际应用中通常采用更大的谐振器 —— 更长的传输长度有利于相位调谐。图 2b 展示了每秒 1 吉样本(GS/s)和 10 吉样本(GS/s)运行速度下所需的带宽。由于微环谐振器(MRR)的 FSR 有限,且最终受限于整体光带宽,高运行速度无法与 N=100 及以上量级的矩阵尺寸兼容。例如,E. Blow 等人采用 11.3 微米的环形结构实现了四谐振器权重库,其半高全宽(FWHM)为 43.37 吉赫兹(GHz)以适配高速运行,对应的 FSR 为 1.07 太赫兹(THz),这将理论可扩展性限制在 24 个通道 ¹⁵。
对于所有光子架构,总功耗主要来自三方面:电子接口的功耗随矩阵尺寸线性增加;挥发性存储器(VM)的静态功耗随矩阵尺寸平方级增长;激光泵浦总功耗,对于 MRR 权重库而言呈 O (N¹・⁵) 量级缩放。图 2c 展示了基于非易失性相变材料(PCM)的移相器 ¹⁷与功耗为 2 毫瓦(mW)的加热器 ¹⁸的计算效率对比。由于低损耗 PCM 技术尚不成熟,我们假设其谐振调谐能力有限 —— 即高态透射率为 - 1 分贝(dB),低态透射率为 - 11 分贝(dB)¹⁷,因此存储窗口有限。MRR 权重库有望实现超过 10 万亿次运算每秒每瓦(TOPS/W)的计算效率,但这需要矩阵尺寸超过 N=100,且矩阵权重无静态功耗。由于两种加权方案最终均需环形谐振器,以及用于 PCM 切换或向加热器供电的电极,我们假设挥发性存储器(VM)和非易失性存储器(NVM)的每个矩阵元素面积均为 900 平方微米(μm²)。图 2d 展示了计算密度随矩阵尺寸的变化关系:小矩阵尺寸时,计算密度受电子接口限制;大矩阵尺寸时,则受单个权重的面积限制。


交叉开关阵列

光子交叉开关阵列将每个输入脉冲均匀分配至所有输出波导,每条路径的透射率可通过可调吸收器单独编程,以编码矩阵元素。为实现平衡读出,可采用两种方案:单参考输出 ¹⁹或成对输出配置 ²⁰。单参考方案设计更紧凑,通过将电路尺寸减半最大限度降低扇出损耗,但仅能提供一半的存储窗口。我们选择该设计进行后续分析,如图 3a 所示。


图 3. 光子交叉开关阵列的性能表现
a,光子交叉开关采用基于分束器网络的平衡无源传输矩阵。每个矩阵单元中的可调吸收器可实现矩阵权重的独立编程。单个计算参考输出用作公共负参考。
b,对于 N×N 矩阵,每个载波的激光功率随 N¹・⁵增长。考虑到片上激光功率典型限制约为 100 毫瓦,这种缩放关系制约了可实现的矩阵尺寸。
c,高光学功率需求导致其计算效率低于其他架构。由于总输入功率呈超平方级缩放,无论存储器类型如何,大型矩阵的效率均趋近于零。
d,基于吸收的非易失性存储器(NVM)尺寸紧凑,因此光子交叉开关有望实现高计算密度,尤其是在高速运行场景下 —— 光子电路尺寸与处理速度无关。

光子交叉开关通过无源宽带耦合器实现累加运算,这使得系统本质上存在损耗。对于 N×N 交叉开关,从一个输入到一个输出的、与矩阵尺寸相关的透射率 αₓ₈ₐᵣ为:

尽管存在这种损耗,该架构仍具备波长无关性优势,可确保出色的稳定性以及与波分复用方案的兼容性。此外,所有输入可共用同一光载波,这消除了与矩阵尺寸相关的带宽限制⁷。但受限于片上激光功率,该架构的损耗特性最终会制约其可扩展性。图 3b 展示了两种存储器的单输入所需激光功率:一种是基于锗 - 锑 - 碲(GeSbTe)相变材料(PCM)的非易失性存储器(NVM),其存储窗口为 0.26²¹;另一种是硅基挥发性光衰减器,功耗为 25 毫瓦(mW),存储窗口为 0.83²²、²³。非易失性存储器(NVM)的存储窗口较小,主要是因为高透射态下插入损耗较大(例如由非晶态下的传输损耗和有限的开关体积导致)。由于功率需求较高,仅当运行速度较低(对应所需光输出信号摆幅较小时),更大的矩阵尺寸才具有可行性。例如,Bowei 等人展示了一个 9×3 的交叉开关阵列,其接口速度为 2 吉样本 / 秒(GS/s)⁷。
与微环谐振器(MRR)权重库类似,光子交叉开关的总功耗同样包括接口功耗、权重功耗和激光功耗三部分。但由于架构存在损耗,总泵浦功率呈 O (N²・⁵) 量级增长。这极大限制了峰值计算效率,尤其是对于大型矩阵,效率会趋近于零,如图 3c 所示。基于吸收的非易失性存储器(NVM)可直接集成在波导顶部,无需马赫 - 曾德尔干涉仪(MZI)等额外结构,因此存储单元可实现极小尺寸 ²⁴。此外,采用复用技术可增加接口规模,且不会增大光子交叉开关的面积,从而进一步提升计算密度 ²⁰。图 3d 展示了计算密度的变化情况,其中非易失性存储器(NVM)每个矩阵单元面积假设为 500 平方微米(μm²),挥发性存储器(VM)每个矩阵单元面积假设为 4000 平方微米(μm²)²³。

马赫 - 曾德尔干涉仪网格
马赫 - 曾德尔干涉仪(MZI)网格通过一系列可调谐 2×2 光分束器实现矩阵权重编码⁵。该架构有两种运行模式:第一种模式下,所有输入共用一个相干光载波,相比仅基于强度编码的方案,可同时操控信号的相位和幅度 ²⁵。但处理和探测复数值信号需要采用相干探测方案,这会增加电路复杂度,且与标准硬件加速器的功能不兼容。因此,我们重点研究非相干 MZI 网格架构 ²⁶(如图 4a 所示),该架构为每个输入信号分配不同的载波波长。每个 2×2 分束器包含最多两个移相器(每个臂一个),因此具有可编程的传输函数。通过在每一行(光深度)中最多放置 N+1 个可调谐分束器、总共部署 N² 个移相器,并设置一个与光子交叉开关类似的参考行,可实现任意实数值矩阵向量乘法(MVM)运算 ²⁶。

图 4. 马赫 - 曾德尔干涉仪(MZI)网格的性能表现
a,MZI 网格通过级联可调谐 2×2 分束器实现光学矩阵乘法运算。本文仅考虑非相干功率编码方案。
b,可扩展性主要受光深度限制 —— 每个信号需穿过多个可调谐分束器,损耗不断累积。若采用超低损耗组件,可实现超过 100×100 的矩阵尺寸。
c,采用非易失性移相器可在更大规模下提升计算效率,但由于插入损耗呈指数增长,效率最终会降至零。
d,与其他架构类似,小矩阵尺寸时计算密度受接口面积限制,大矩阵尺寸时则受单个权重面积限制。
该架构的主要局限在于光学损耗呈指数增长 —— 信号必须穿过多个可编程分束器。对于分束器透射率为 αₛₚ的 N×N MZI 网格,与矩阵尺寸相关的透射率为:

图 4b 展示了两种调谐机制的单输入激光功率需求:基于加热器的移相器和基于相变材料(PCM)的移相器。尽管两种方案的插入损耗差异较小 —— 主动调谐为 0.23 分贝(dB)²⁷,非易失性调谐为 0.3 分贝(dB)¹⁷,但这对总功率需求产生了显著影响。若 2×2 分束器经过低插入损耗优化,100×100 以上的矩阵尺寸具备可行性。例如,Lightmatter 公司推出了一款用于计算的 64×64 可编程 MZI 网格 ²⁸。但实际应用中存在一项约束:制造误差可能导致相位误差,需额外采用校正方案 ²⁹。
图 4c 展示了计算效率的变化情况,假设非易失性 PCM 移相器无静态功耗,而基于加热器的移相器单个功耗为 25 毫瓦(mW)²⁷。与其他光子架构不同,该架构的损耗随矩阵深度呈指数增长。这种指数增长最终会制约可扩展性,且对于超大型矩阵,计算效率会趋近于零。为估算计算密度,我们假设每个非易失性移相器面积为 900 平方微米(μm²),每个基于加热器的移相器面积为 2000 平方微米(μm²)¹⁷、²⁷。对于大型矩阵,芯片尺寸主要由光子矩阵权重决定,因此计算密度会趋于稳定。


讨论:
混合电子 - 光子架构(如 Lightmatter 公司的四核 128×128 矩阵处理器⁸)以及纯电子系统(如 IBM 的 64 核 256×256 设计⁴)在模拟计算领域实现了最先进的性能,并展示了全集成能力。纯光子计算的可扩展性仍受限制,主要原因是缺乏集成技术支持。表 1 对比了工业级硬件加速器与光子处理器的仿真特性。尽管存在局限,但已有多种方案可用于提升微环谐振器(MRR)权重库和交叉开关阵列的规模。对于基于环形谐振器的系统,增加可用带宽至关重要。前景良好的方案包括将环形谐振器与布拉格光栅结合,以消除自由光谱范围(FSR)的约束 ³⁰。在光子交叉开关中,降低激光功耗至关重要,这需要更高效(低损耗)的信号叠加方式。一种潜在解决方案是在可调衰减后利用环形谐振器实现累加,Varri 等人已展示相关设计 ³¹。由于该配置中的环形仅用于传输而非权重编码,对谐振宽度的要求得以放宽。在本分析中,MZI 网格虽表现出最佳可扩展性,但主要受制造缺陷限制。由于光深度较大,2×2 可调分束器的微小偏差可能导致显著的性能下降。尽管存在补偿方案,但这些方案本质上会降低系统效率 ²⁹。制造后调谐以及集成光子学的更广泛工业应用,有望提高良率和一致性 ³¹。

表 1. 典型计算平台的性能对比
IBM 的 Hermes 芯片采用基于非易失性相变材料的模拟内存内计算,而 Lightmatter 的平台则利用光学广播结合电子加权与累加技术。三种光子平台的所示数值均基于特定假设和架构配置外推得出;不同的设计选择可能会产生不同结果。* 延迟取决于模数转换器(ADC)的确切架构。♰最终受芯片尺寸和制造缺陷限制。

在功耗效率方面,微环谐振器(MRR)权重库表现出优异的缩放特性,马赫 - 曾德尔干涉仪(MZI)网格次之,两者均有望超过 10 万亿次运算每秒每瓦(TOPS/W)。相比之下,光子交叉开关目前的功耗缩放特性缺乏竞争力。需注意的是,模拟系统的基准测试是在模拟数字行为的条件下进行的,例如 INT8 输入 / 输出量化和约 4 位的等效权重量化。权重精度的调整会直接影响模拟和数字领域的计算效率。
所有架构的计算密度在以下两种情况下可与其他硬件加速器相媲美:一是接口支持高采样率;二是低采样率与大矩阵尺寸及小存储单元尺寸相结合(例如采用非易失性存储器(NVM)器件的光子交叉开关)。此外,光子交叉开关支持波分复用(WDM),可进一步提升计算密度 ²⁰。
在存储器类型方面,非易失性存储器(NVM)由于静态功耗为零,相比热调谐等基于挥发性存储器(VM)的方案具有显著优势,可降低整体功耗。它还可能简化权重编程的输入 / 输出设计。开发无静态功耗的紧凑型电光挥发性存储器(例如基于钛酸锶钡(BTO)的器件),有望大幅提升基于挥发性存储器的光子加速器的计算效率 ³³。
最后,尽管本研究重点关注计算效率和密度等与并行、高通量计算最相关的指标,但需强调光子计算机在高带宽下执行完整矩阵向量乘法(MVM)的固有优势。这一优势可实现超低延迟,对迭代计算任务尤为重要 ³⁴。此外,光子计算还独特支持集成熵源以实现概率计算 ³⁵、³⁶,可解决优化问题 ³⁷和相关检测问题 ³⁸,并能实现联想存储器 ³⁹。


图 5. 异构神经网络推理
光子计算虽能实现高能效超低延迟计算,但提供所需存储容量和高吞吐量仍面临挑战。因此,异构计算框架变得尤为具有吸引力。作为演示案例,我们采用光子 - 电子内存内处理方案进行说明:使用基于磷化铟(InP)的光子乘法器(其包含用于输入编码的电吸收调制器(EAM)和用于权重调控的半导体光放大器(SOA)),结合基于相变材料的电子内存内计算。通过 AIHWKIT-lightning 工具包⁴⁰进行硬件感知训练后,该模拟系统的分类准确率达到 97.7%,比数字系统性能低约 1 个百分点。
总体而言,高通量应用仍是光子计算面临的重大挑战,但它具备高带宽、低延迟等优势,以及波分复用(WDM)等独特特性,使其在特定问题领域极具应用前景。因此,如图 5 所示,仅将特定计算密集型任务卸载至光子计算单元,而系统其余部分仍保留在电子域,这种方式尤为可行。一个典型示例是神经网络推理:在卷积神经网络(CNNs)中,对于尺寸为n×n的图像和k×k的滤波器,所需的乘累加运算次数呈 (n-k)² 量级增长(第一层通常满足n远大于k)。由于k值较小,第一层可高效映射至可扩展光子电路;但后续层(包括需要大量计算内存的全连接层)难以在光子域中实现。我们通过组合方案验证了这一思路:第一层采用基于挥发性存储器(VM)器件的混合信号光子内存内计算,深层则采用 IBM HERMES 项目芯片⁴¹ 上实现的基于非易失性存储器(NVM)的电子内存内计算。不过,要充分释放该方案的潜力,仍需开展进一步研究。
综上,我们通过定制化性能基准测试框架,评估了多种主流光子计算架构的计算效率和密度缩放特性,并与电子处理器进行了对比;明确了每种架构的核心优势与局限,同时提出了异构计算框架,为光子计算的优化应用提供指导。

方法:
输出分布统计与量化
光子处理器输出端的信噪比最终将决定整体精度。假设光子处理器每个输入调制器的光输入功率为 P₀,且从一个输入调制器到一个输出光电探测器(PD)的、与矩阵尺寸相关的系统透射率为 α,则可将平衡读出所用两个输出端的功率差表示为:

其中,r 为编码范围,由数模转换器(DAC)的输出摆幅和调制器的响应决定;b 为调制器的偏置点透射率;N 为矩阵尺寸。我们将输入向量记为 x(xi∈[-1,1]),将对平衡读出方案起作用的正权重向量记为 w₁和 w₂,二者由模拟权重表示的绝对透射率给出。据此,可将功率差重写为:

其中,存储窗口 Δw 为模拟权重高态与低态的绝对差值,w 为有效编码权重(wi∈[-1,1])。第一项在权重配置固定时为常数,会被读出电子设备的高通特性有效去除:

按设计,输出功率差与输入向量和权重向量的点积成正比。若假设输入和有效权重均服从不相关的均匀分布 U (-1,1),则可计算输出分布的期望值和方差如下:


因此,方差满足以下关系:

由于中心极限定理,当 N 取较大值时(例如,如图 5a 所示,向量尺寸 N=16 时已呈现该特征),ΔP 会趋近于高斯分布。该分布将基于模数转换器(ADC)的分辨率进行量化,本研究中假设 ADC 分辨率为 8 位。除量化外,我们还可定义输出范围,用于确定分布的截断阈值。

图 6. 输出量化
A,由于输入与权重分布互不相关,即使矩阵尺寸较小(N=16),输出分布也已呈高斯分布。99.7% 的数值落在均值附近 3σ 范围内。
B,截断可能的输出范围可提高大多数数值的量化分辨率。对于 8 位量化,3.1σ 的输出范围最优,对应的量化误差为 0.83%。
C,采用该输出量化方案,我们计算了 8 位输入 / 输出量化、n 位权重量化下,数字 64×64 矩阵乘法的 L₂误差。要实现与数字系统相当的 4 位权重量化性能,模拟系统的噪声等效光输出功率必须低于信号摆幅的 2.3%。
输入向量 x 与权重向量 w 的点积取值范围为 [-N,N]。但由于输出服从标准差为√N/3 的高斯分布,99.7% 的数值落在 [-√N,√N] 区间内。截断分布可通过减小 8 位量化带来的步长来降低误差。图 5b 展示了不同输出范围对应的误差,采用 L₂范数作为计算精度的衡量标准:

因此,在给定场景下,将分布截断至 3.1σ 是最优选择。最后,我们计算每个调制器所需的输入功率 P₀,以实现目标光输出信号摆幅:

因此,

值得注意的是,即使对于理想的无损耗光子处理器,由于输入分布互不相关,总输入功率 N×P₀也会随向量尺寸的增大而增加。
采用该输入 / 输出量化方案后,我们可将模拟系统的 L₂误差与数字系统(采用相同输入 / 输出量化但权重为 n 位量化)的 L₂误差进行对比。通过噪声等效光输出功率 PNEP 对所有模拟噪声源进行建模,模拟系统的 L₂误差为:

需注意,系数 3.1 仅用于将输出范围(即光输出信号摆幅)映射回光输出信号的标准差 —— 因为信噪比是决定计算精度的关键参数。图 5c 展示了不同 PNEP 与 Pswing 比值对应的等效权重量化情况。在给定场景下,要实现与 8 位输入 / 输出量化、4 位权重量化数字系统相当的计算误差,Pswing 需达到 PNEP 的 43.5 倍。


接口:
模拟光子处理器与数字电子系统架构之间的编码不匹配,需要一套相当复杂的接口。该接口不仅占用面积、消耗功率,还会引入噪声,进而影响光子处理器输出端所需的光信号强度。
在输入端,脉冲幅度调制(PAM)数模转换器(DAC)通过电阻梯网络、电流舵设计或两者结合的架构,将数字整数值转换为模拟脉冲幅度。DAC 的功耗包含两个主要部分:一是静态功耗,例如即使不主动进行转换,电流源也需持续偏置产生的功耗;二是动态功耗,例如电流舵架构中每次输入时设置开关所需的功耗。因此,DAC 的总功耗并非随采样频率的增加而线性增长,P. Caragiulo 等人的调研中就体现了这一点⁴²。在更高采样率下,每转换步的能耗甚至可能略有下降。我们近似得出,1 吉样本 / 秒(GS/s)时每转换步能耗为(15±5)飞焦(fJ),10 吉样本 / 秒(GS/s)时为(16±5)飞焦(fJ)⁴³–⁴⁶。由于需采用复用技术(通过复制数据转换器模块实现更高吞吐量),DAC 的物理尺寸通常会随采样率的提高而增大。
在光子处理器输出端,光电二极管将光功率编码信号耦合回电子电流。信号传入模数转换器(ADC)之前,跨阻放大器(TIA)会将电流信号转换为电压并进行放大。TIA 的性能特性很大程度上取决于光电二极管、ADC 以及这三个组件之间的布线特性。下文假设 TIA 的功耗为(30±10)毫瓦(mW),尺寸为(0.08±0.02)平方毫米(mm²),其功耗同时依赖于高增益放大器和驱动输出(ADC)负载的输出缓冲器。TIA 的噪声等效输入电流与带宽相关,例如热噪声就具有频率依赖性。为实现高精度模拟计算,光电探测器的输出信号必须显著更大(即 50 倍以上)。结合表 2 中的 TIA 噪声值,1 吉样本 / 秒(GS/s)工作状态下需输出约(20±10)微安峰峰值(μApp)的信号,10 吉样本 / 秒(GS/s)时需(75±25)微安峰峰值(μApp)。因此,高增益放大器对于充分利用 ADC 的整个电压范围至关重要⁸、⁴⁷–⁴⁹。
将 TIA 的模拟输出电压转换回数字值的架构有多种,例如闪存 ADC、逐次逼近型(SAR)ADC 和基于压控振荡器(VCO)的 ADC。尽管架构和性能存在差异,但这些 ADC 通常都具有动态功耗占主导的特点。因此,低采样率时每转换步能耗往往保持相对稳定,超过 1 吉样本 / 秒(GS/s)后开始上升,B. Murmann 等人的调研也证实了这一点⁵⁰。这种上升源于射频(RF)电路设计的挑战以及交织技术的使用 —— 后者同样需要复制数据转换器,会增加整体功耗和面积。为进行性能估算,我们假设采用逐次逼近型(SAR)ADC,1 吉样本 / 秒(GS/s)时每转换步能耗为(15±5)飞焦(fJ),10 吉样本 / 秒(GS/s)时为(50±15)飞焦(fJ)⁵¹–⁵⁴。与 DAC 类似,由于采用交织架构,ADC 的尺寸也会随采样频率的提高而增大。


表 2. 接口组件性能假设】我们利用这些器件特性来模拟集成线性光子处理器的可扩展性、计算效率及计算密度。存储器特性与架构相关,因为不同计算方案需要不同类型的存储器。

除数模转换外,系统还需执行电光转换。相干激光器(特定情况下为非相干光源)生成光载波信号。集成光子激光器通常采用磷化铟(InP)作为红外工作波段的增益介质,并依赖电泵浦驱动。在纯磷化铟光子电路中,这类激光器输出功率最高可达 250 毫瓦(mW),转换效率约为 35%⁵⁵。然而,由于晶格结构和热膨胀系数不匹配,将磷化铟激光器直接集成到绝缘体上硅(SOI)平台面临挑战,最终会降低转换效率和最大输出功率⁶¹。例如,通过晶圆级倒装芯片键合技术将预制磷化铟激光器集成到 SOI 上,可实现最高 40 毫瓦的输出功率,转换效率约为 9%⁵⁶。
接下来,数模转换器(DAC)的模拟输出脉冲需耦合至光载波信号。常用方案有两种:一是电吸收调制器(EAM),其采用快速吸收可调谐波导(例如利用硅锗结构中的量子限制斯塔克效应⁶²);二是电光调制器(EOM),其在马赫 - 曾德尔干涉仪(MZI)结构中集成快速移相器(例如利用泡克尔斯效应⁶³)。下文将考虑偏置电光调制器,其透射率随输入电压 V 的变化关系为:


Vπ 是电光调制器(EOM)完全开启 / 关闭所需的电压。为确保输入编码误差低于 2%,输入电压必须控制在 ±0.2Vπ 范围内。假设数模转换器(DAC)输出电压为 1V 峰峰值(pp),则目标 Vπ 约为 2.5V,对应的线性编码范围为 ±0.3。通常,Vπ 与 EOM 的长度呈反比关系,因此可通过实际电路设计进行调谐。
在绝缘体上硅(SOI)平台上制备紧凑型 EOM 的一种方案是,将具有大 χ² 非线性的材料集成到电路中。例如,硅有机混合调制器可实现 40GHz 以上的带宽,同时插入损耗低于 1dB、调制器长度小于 500μm,Vπ 约为 1.5V⁵⁷、⁵⁸。在光子处理器输出端,光电二极管将光信号耦合回电子域。对于 SOI 平台上的电信波长探测,锗(Ge)是天然选择,可实现 100GHz 带宽的光电二极管,响应度为(0.9±0.2)A/W,且尺寸紧凑 —— 其尺寸主要取决于电极和键合焊盘设计⁵⁹、⁶⁰。结合光电探测器响应度及上述假设,1 吉样本 / 秒(GS/s)工作状态下需光输出信号摆幅为(22±12)微瓦峰峰值(μWpp),10 吉样本 / 秒(GS/s)时为(83±32)微瓦峰峰值(μWpp)。


性能估算
我们针对执行 N×N 矩阵向量乘法运算的各类光子处理器,对其计算密度与计算效率展开估算。在进行功耗与面积测算时,我们未将非相干马赫 - 曾德尔干涉仪(MZI)阵列及光子交叉开关阵列中额外的基准列纳入考量,因为对于规模较大的矩阵而言,该基准列带来的影响微乎其微。当处理器以采样频率 f 运行且每个符号对应一个采样点时,系统每秒的运算量(含乘法与加法运算)计算公式如下:

总占地面积由接口占用面积 Aio 和光子电路占用面积 APIC 构成。所有处理器架构的接口均相同,且仅取决于采样频率:


我们可将总功耗表示为三个互不相关来源的功耗之和:


光子集成电路的功耗 PPIC 因架构而异,且取决于矩阵权重的实现方式。电子接口组件的功耗为:


总所需激光功率为端口激光功率(公式 8 所示)的 N 倍。同时考虑到激光源的转换效率 c,光载波生成的功耗可表示为:


在我们的分析中,假设电光调制器(EOM)的 Vπ 足够低,因此可充分利用 r=0.3 的线性编码范围。我们采用系统透射率和存储窗口的具体测量值,并沿用前文讨论的激光转换效率和光输出信号摆幅估算值。据此,所需激光泵浦功率的方差可表示为:


致谢:
感谢来自 Illustrato 公司的Jochen Stuhrmann为插图提供的协助。
本研究得到以下项目资助:
欧盟 “地平线 2020” 研究与创新计划(资助编号:101017237,PHOENICS 项目)、欧盟创新委员会探路者计划(资助编号:101046878,HYBRAIN 项目)以及欧洲研究理事会启动基金(INFUSED 项目)。

数据可用性:
支持本研究结论的数据可在合理请求下从通讯作者处获取。

参考文献:



Share this on