中国研究人员在光子神经网络的优化训练领域取得重要进展

2023-10-18 07:27:52
关注

近日,清华大学电子系光子计算与集成实验室林星助理教授课题组和上海交通大学电子系熊红凯教授课题组合作,提出了大规模光子神经网络的对偶自适应训练方法,使得网络能够适应大量动态的系统误差累积,实现任务推理性能的巨大提升,在光子神经网络的优化训练领域取得重要进展。

为突破经典冯·诺依曼计算机体系架构算力和功耗瓶颈,林星团队聚焦智能光子计算与芯片研究,以光子作为计算媒介,构建低延迟、高能效、高带宽的光电融合计算处理器,有望在后摩尔时代支撑人工智能大模型的算力需求。

然而,受限于模拟计算系统中所存在的动态系统误差累积,将离线训练得到的光子神经网络模型参数直接部署到处理器时,任务推理性能随着网络规模的增长而急剧下降。现有在线训练方法面临网络梯度无法精确计算、逐层训练效率低、需要增加额外反向传播硬件的难题,难以应用于大规模光子神经网络的训练。

为解决上述难题,课题组提出了用于训练大规模光子神经网络的对偶自适应训练方法(Dual Adaptive Training,DAT),通过网络的精准建模和对偶反向传播,在动态系统误差环境下,成功训练了包含28万神经元的光子神经网络,在分类任务上的训练性能大幅优于当前训练方法。

课题组在空间光子计算系统的实验平台上,构建了衍射光子神经网络,对比了多种领域前沿训练方法在分类任务上的性能。在严重动态系统误差环境下,所提出对偶自适应训练方法,在MNIST和Fashion-MNIST数据集上训练分类任务,相比参数直接部署方法分类准确率能够分别提升64.1%和66.2%,相比领域前沿方法分类准确率能够分别提升52.8%和67.0%。

课题组进一步在片上集成光子计算系统的仿真平台上构建了干涉光子神经网络,所提出对偶自适应训练方法,同样在MNIST和Fashion-MNIST数据集上训练分类任务,相比参数直接部署方法分类准确率能够分别提升26.4%和28.7%,相比领域前沿方法分类准确率能够分别提升8.4%和17.6%。

研究有效解决了网络梯度精确计算的难题,实现了端到端的网络参数更新,无需增加额外反向传播硬件,可适用于更大规模的光子神经网络训练,并且能拓展到训练任意架构的光子神经网络以及模拟神经网络,为光子神经网络的产业落地和广泛应用提供了有力支撑。

近日,该研究成果以“光子神经网络的对偶自适应训练”(Dual Adaptive Training of Photonic Neural Networks)为题发表在《自然·机器智能》(Nature Machine Intelligence)上。

版权声明:除特殊说明外,本站所有文章均为 字节点击 原创内容,采用 BY-NC-SA 知识共享协议。原文链接:https://byteclicks.com/53677.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有,文章内容仅代表作者独立观点,不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人,只供传递信息之用,非商务用途。如有侵权,请联系 gavin@byteclicks.com。我们将协调给予处理。

您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

广告

微科技

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

阿里变老,阿里焕新,阿里颠覆阿里

提取码
复制提取码
点击跳转至百度网盘