清华研发出“世界第一”,这种芯片要火了?

日期:2023-10-13 13:33:19 / 人气:163

“傅斌三位作者。
这两天,一则新闻刷爆了芯片圈,清华又出新成绩了。
清华大学集成电路研究所教授吴华强、副教授高斌开发出全球首个支持高效片上学习的全系统集成内存-内存集成芯片(机器学习可直接在硬件端完成),在支持片上学习的内存-内存集成芯片领域取得重大突破,有望推动人工智能、自动驾驶可穿戴设备等领域的发展。该研究成果已发表在《科学》杂志上。
对于国内芯片行业来说,到处都是“瓶颈”,全世界也在集中精力研发下一代产品。这次,我们领先了。
结果如何呢?
据清华大学官方微信官方账号介绍,该芯片包含支持完整片上学习所需的全部电路模块,成功完成图像分类、语音识别、控制任务等多种片上增量学习功能的验证,呈现出高适应性、高能效、高通用性、高准确性的特点,有效强化了智能设备在实际应用场景中的学习适应性。
在相同任务下,芯片实现片上学习的能耗仅为先进工艺下专用集成电路(ASIC)系统的1/35,有望实现75倍的能效提升。
图片忆阻器存储计算集成芯片及测试系统,来源:清华大学。
基于忆阻器存储和计算实现高效片上学习的通用算法和架构,来自清华大学。
“具有存储和计算功能的片上学习可以有效保护用户隐私和数据,同时实现更低的延迟和更少的能耗。”博士后姚鹏介绍,该芯片参照仿生类脑处理模式,可实现不同任务的快速“片上训练”和“片上识别”,并能以极低的功耗有效完成边缘计算场景下的增量学习任务,适应新场景,学习新知识,满足用户个性化需求。
比如有些人习惯在数字“7”中间加一个短杠。起初,智能芯片并不识别这个符号,但在训练两三个以这种方式书写的“7”后,它可以准确地将其识别为数字“7”。
汽车自动循迹控制增量学习演示,来源:清华大学。
这是什么?有什么用?
顾名思义,存储和计算的集成就是内存和处理器的集成。试想一下,人类在思考的时候,一直是把存储和计算融为一体的,不会出现分离的情况。这个架构是基于我们大脑的处理方法。
为什么我们需要集成存储和计算?在冯诺依曼瓶颈的经典计算机体系结构中,处理和存储是分开的。合并就是跨越两堵墙——存储墙和电源墙。
存储墙:冯诺依曼架构的存储与计算分离,会导致外部存储器的运行速度远低于处理器,整个系统会受到传输带宽瓶颈的限制,导致计算能力远低于处理器标定的理论计算能力;
功耗墙:在冯诺依曼架构中,数据在处理器和外部存储器中频繁高速传输,会导致系统功耗很高。同时,摩尔定律触及1nm,芯片特征尺寸进入量子效应显著范围,引起一系列次生物理效应,包括栅隧穿泄漏、载流子界面散射、强场速饱和、源漏寄生电阻增加,导致功耗密度快速增加。
当我们打破了两堵墙,数据就不需要来回运送了,就不会出现“堵车”的情况。此时整体功耗会更低。说白了就是不走弯路。
什么是忆阻器?它的全称是Memory Resistor,由Memory和Resistor两个英文单词组成,它代表的是第四个器件。
在电路中,电流I、电压U、电荷Q、磁通量φ这四个基本变量中,前三个分别对应电阻、电容和电感,磁通量φ代表磁通量和电荷的关系,即忆阻器,其特点是忆阻器能够记住流经它的电荷量。
根据材料和物理机制,忆阻器器件可以分为四种类型:阻变存储器(RRAM)、相变存储器(PCRAM)、磁随机存储器(MRAM)和f-ram (FeRAM)。此外,还有光电忆阻器、有机忆阻器和流体忆阻器。
不同类型忆阻器的参数比较,电子工程世界列表
参考物理学杂志。
存储和计算的集成也分为多种介质,不同的介质有不同的实现效果和重点,包括各种易失性存储设备和非易失性存储设备(NVM)。
其中,前沿研究更倾向于探索和设计具有成熟技术SRAM的存储-计算一体化架构,但SRAM存在瓶颈。随着技术的发展,CMOS扩展的难度会相应增加,芯片计算密度的增长会逐渐放缓。相比之下,非易失性存储器(NVM)在计算密度上显示出更大的潜力,但NVM尚未成熟,基于该技术的集成存储和计算架构短时间内难以得到广泛应用。
除了记忆和计算的集成,未来科学还会将忆阻器的应用范围扩展到“感知、记忆和计算的集成系统”,也就是说,未来的系统不仅是存储和计算一起进行,感知系统也会同时进行,计算效率会继续翻倍。
集成传感、存储和计算系统中使用的忆阻器的性能比较,电子工程世界列表
参考物理学杂志。
更值得强调的是,无论是记忆与运算集成还是忆阻器,都与类脑芯片或神经形态计算有关。毕竟他们已经在模仿人脑了。
类脑芯片在算法(SNN)和架构上完全模仿人脑计算的“突触可塑性”,是大脑记忆和学习的重要基础。它允许突触根据它们的活动加强或削弱,并由突触上的神经递质受体控制。
当然,类脑芯片是一个非常复杂的分支,用忆阻器实现的类脑芯片属于最难的一种,也是非硅基类脑芯片。
不同类型的类脑芯片实现了电子工程的世界。
说了这么多,整合存储和计算有什么用?总之,可以让芯片快速获得十倍甚至上百倍的能效比。低功耗是它最大的功能,降低功耗意味着移动设备可以有更多的想象空间,我们可以越来越多地利用现有的能源系统,达到更大的计算能力。
举个典型的例子,AlphaGo在国际象棋上打败了人类,但是人类只用了20瓦的大脑能耗,AlphaGo用了20000瓦。
当然,我们知道一项成果不可能在一夜之间转化为产业,而这项成果不仅涉及记忆和计算集成、忆阻器,还涉及仿生类脑处理。把这些东西组装起来,做出来就比较复杂了,技术含量有多高可想而知。
存算合一是否迎来新的增长机遇?
虽然我们一时半会儿可能很难看到这种芯片,但集成存储和计算的芯片近年来已经逐渐产业化。不知道这个消息会不会成为市场的助推剂。
其实大部分国际巨头都已经进行了相关的研究,比如英特尔、三星、IBM、东芝、SK海力士等工程师熟悉的公司,国际市场上最典型的新闻有:
三星在2021年2月发布了HBM2-PIM,通过TSV过孔垂直组合了四个常规DRAM管芯和四个具有计算功能的DRAM管芯。其工作频率为300 MHz,每个PIM-DRAM芯片上有32个PCU。2022年初,三星电子发布了首款基于MRAM的集成存储和计算芯片,并采用28nm CMOS工艺重构了MRAM阵列结构。
2021年5月,Mythic2021获得7000万美元C轮融资,2021年6月发布。它由72个AMP片组成,每个AMP片集成了一系列闪存单元、ADC阵列、一个32位RISC纳米处理器、一个16位SIMD矢量处理器、SRAM和一个片上网络(NOC)路由器,计算能力为25TOPS。
2018年,IBM通过PCM在数据存储位置执行计算,加速了全连接神经网络的训练。该芯片能效比是传统GPU的280倍,单位面积计算能力是传统GPU的100倍。
2016年,英特尔基于SRAM实现了支持逻辑运算的存储器,并在此基础上实现了支持无进位乘法的计算缓存。
另一方面,在国内,回顾几年前,涌现出一大批存算一体化的公司。这些公司大部分两年前还在A轮。当时很多公司都获得了1亿元的融资。短短两年时间,众多明星公司获得2~3轮新融资。赛道依然火热,资本依然看好这项新技术。
此外,许多产品正在逐渐出现:
今年5月,厚模智能正式发布了首款集成存储和计算的智能驾驶芯片——宏图H30。在12nm工艺下,芯片的物理计算能力达到256TOPS。采用Int8全精度计算,计算延迟仅为1.5ns,能效比30~150TOPS/W,比同精度计算条件下业界水平高出3倍以上。而且支持L4量产车型规格,这种存储和计算的一体化,在大计算力领域是走在前列的。
辛平科技研发并实现了多种基于SRAM的内存计算加速单元,致力于为人工智能行业提供低成本、高效率、低能耗、高性能的芯片解决方案。
九天睿芯拥有自己专利的模拟预处理和6T SRAM存储技术,解决了传统计算架构的瓶颈和功耗散热问题,实现了更低的延迟和更快的处理速度。
达摩院研发的集成存储和计算芯片是世界上第一个采用混合键合的3D堆叠技术,用特定的金属材料和工艺将计算芯片和存储芯片面对面互联。
不完全统计,制表和电子工程世界的国内公司与集成存储和计算
展望未来,存储与计算一体化从技术角度看有三个难点:一是设备特性难以满足所有要求,存储与计算一体化形式太多,但每个设备的侧重点不同,不一定能满足所有应用要求;第二,阵列存在泄漏路径、写串扰和寄生电容电阻问题;第三,现有的集成电路设计和集成技术无法满足需求,存储和计算的集成本身是为了低功耗,但外围控制辅助电路的面积和功耗较高,也会降低存储和计算集成的一部分收益。同时存储存在工艺差距,统一工艺增加硬件开销。3D异构集成是一种可行的方式。
从市场来看,存算一体化还是一个比较先进的技术,还在寻找应用阶段。目前只有厚模智能一家公司公开发起大规模落地,瞄准车辆监管层面,而多家公司更看好AIoT在低功耗、传感、存储、计算一体化、图计算、基因工程等方面的应用。当然,
在之前笔者与辛平科技的对话中,该公司也表示,存储与计算一体化的早期产品更容易出现在端侧对低功耗、高能效有强烈需求的场景中。随着智慧城市、智慧生态等应用的普及,从长远来看,存储产品的应用范围也可能延伸到超级计算能力领域。

作者:天富注册登录官网




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 天富注册登录官网 版权所有