清华大学开发光子AI芯片，效率提高了2到3个数量级！

2024-04-29

通用人工智能（AGI）领域的发展对下一代计算提出了严格的能源和面积效率要求。为了突破摩尔定律的停滞，集成光子神经网络已经显示出实现卓越处理速度和高能源效率的潜力。然而，由于计算能力和可扩展性的严重限制，实验上只实现了简单任务和浅层模型。

清华大学的团队开发了大规模芯片以及分布式光学计算架构，实现了数十亿神经元的片上计算能力，每瓦160 TOPS的能源效率。该芯片不仅利用了波光学的高并行性和高连接性来实现非常高的计算密度，而且还探索了一种通用且迭代的编码-嵌入-解码光子计算，有效地将光学神经网络的规模增加到十亿神经元级别。

研究人员表示，这是首次，太极芯片实验性地实现了片上大型光学神经网络，用于千分类级别的分类任务和人工智能生成内容（AIGC）任务，与当前的AI芯片相比，在面积效率和能源效率上提高了2到3个数量级。

▲大规模干涉-衍射混合集成光子芯片；图片由清华大学提供

该团队为复杂的AGI任务提出了一种通用且稳健的分布式计算协议。研究人员表示，与深入探索电子计算不同，Taichi架构在吞吐量和规模扩展方面走向了更广泛的领域。该团队提出了一种二进制编码协议，将具有挑战性的计算任务和大型网络模型分解为可以分布式部署在光子芯片上的子问题和子模型。这种原子化的划分与并行操作使得大规模任务能够以灵活的规模自适应地解决，从而实现具有高达100亿个光学神经元的片上网络。

研究人员开发了他们最大规模的光子芯片，以支持最大64×64的输入和输出维度。通过集成可扩展的波场衍射和可重构干涉，整个输入被被动编码并以高度并行的方式调制，他们说，这实现了每瓦160 TOPS的片上能源效率和每平方毫米879 T MACS的面积效率（与现有的AI芯片相比，在能源效率和面积效率上均提高了2个数量级）。

太极芯片的多功能性和灵活性通过片上实验得到了证明，这些实验展示了在1623类别的Omniglot字符分类中达到了91.89%的准确率，在100类别的mini-ImageNet分类中达到了87.74%的准确率。此外，片上高保真的人工智能生成内容（AIGC）模型在音乐创作和高分辨率风格化绘画生成等任务中也得到了展示。

太极芯片不仅打破了向十亿神经元基础模型扩展的规模限制，研究人员表示，它还通过信息散布和合成实现了容错稳健性。研究人员认为，该芯片以可扩展、准确和高效的方式解决复杂的片上通用人工智能（AGI）任务的能力，将为实际光子计算铺平道路，以支持大型机器学习模型、人工智能生成内容（AIGC）、机器人技术和其他领域的应用。

原文：Photonic Chip Enables 160 TOPS/W Artificial General Intelligence | Research & Technology | Apr 2024 | Photonics Spectra