未来异型自动插件机技术趋势发展分析
作者:wenwen
发布时间:2018-12-14
点击数:
目前主流异型自动插件机AI芯片的核心主要是利用MAC(MultiplierandAccumulation,乘加计算)加速阵列来实现对CNN(卷积神经网络)中最主要的卷积运算的加速。这一代AI芯片主要有如下3个方面的问题。
(1)异型自动插件机深度学习计算所需数据量巨大,造成内存带宽成为整个系统的瓶颈,即所谓“memorywall”问题。
(2)与第一个问题相关,内存大量访问和MAC阵列的大量运算,造成AI芯片整体功耗的增加。
(3)异型自动插件机深度学习对算力要求很高,要提升算力,最好的方法是做硬件加速,但是同时深度学习算法的发展也是日新月异,新的算法可能在已经固化的硬件加速器上无法得到很好的支持,即性能和灵活度之间的平衡问题。
因此,可以预见异型自动插件机下一代AI芯片将有如下的五个发展趋势。
(1)更高效的大卷积解构/复用
在标准SIMD的基础上,CNN由于其特殊的复用机制,可以进一步减少总线上的数据通信。而复用这一概念,在超大型神经网络中就显得格外重要。异型自动插件机如何合理地分解、映射这些超大卷积到有效的硬件上成为了一个值得研究的方向,
(2)更低的Inference计算/存储位宽
AI芯片最大的演进方向之一可能就是神经网络参数/计算位宽的迅速减少——从32位浮点到16位浮点/定点、8位定点,甚至是4位定点。在理论计算领域,2位甚至1位参数位宽,都已经逐渐进入实践领域。
(3)更多样的存储器定制设计
当计算部件不再成为神经网络加速器的设计瓶颈时,如何减少存储器的访问延时将会成为下一个研究方向。通常,异型自动插件机离计算越近的存储器速度越快,每字节的成本也越高,同时容量也越受限,因此新型的存储结构也将应运而生。
(4)更稀疏的大规模向量实现
神经网络虽然大,但是,实际上有很多以零为输入的情况,此时稀疏计算可以高效的减少无用能效。来自哈佛大学的团队就该问题提出了优化的五级流水线结,在最后一级输出了触发信号。在Activation层后对下一次计算的必要性进行预先判断,如果发现这是一个稀疏节点,则触发SKIP信号,避免乘法运算的功耗,以达到减少无用功耗的目的。
(5)计算和存储一体化
异型自动插件机计算和存储一体化(process-in-memory)技术,其要点是通过使用新型非易失性存储(如ReRAM)器件,在存储阵列里面加上神经网络计算功能,从而省去数据搬移操作,即实现了计算存储一体化的神经网络处理,在功耗性能方面可以获得显著提升。
以上就是小编关于未来异型自动插件机技术趋势发展分析的介绍,希望对大家有用哦!
责编:文文