清华研发出“世界第一”，这种芯片要火了？

日期：2023-10-13 13:33:19 / 人气：586

“傅斌三位作者。
这两天，一则新闻刷爆了芯片圈，清华又出新成绩了。
清华大学集成电路研究所教授吴华强、副教授高斌开发出全球首个支持高效片上学习的全系统集成内存-内存集成芯片(机器学习可直接在硬件端完成)，在支持片上学习的内存-内存集成芯片领域取得重大突破，有望推动人工智能、自动驾驶可穿戴设备等领域的发展。该研究成果已发表在《科学》杂志上。
对于国内芯片行业来说，到处都是“瓶颈”，全世界也在集中精力研发下一代产品。这次，我们领先了。
结果如何呢？
据清华大学官方微信官方账号介绍，该芯片包含支持完整片上学习所需的全部电路模块，成功完成图像分类、语音识别、控制任务等多种片上增量学习功能的验证，呈现出高适应性、高能效、高通用性、高准确性的特点，有效强化了智能设备在实际应用场景中的学习适应性。
在相同任务下，芯片实现片上学习的能耗仅为先进工艺下专用集成电路(ASIC)系统的1/35，有望实现75倍的能效提升。
图片忆阻器存储计算集成芯片及测试系统，来源:清华大学。
基于忆阻器存储和计算实现高效片上学习的通用算法和架构，来自清华大学。
“具有存储和计算功能的片上学习可以有效保护用户隐私和数据，同时实现更低的延迟和更少的能耗。”博士后姚鹏介绍，该芯片参照仿生类脑处理模式，可实现不同任务的快速“片上训练”和“片上识别”，并能以极低的功耗有效完成边缘计算场景下的增量学习任务，适应新场景，学习新知识，满足用户个性化需求。
比如有些人习惯在数字“7”中间加一个短杠。起初，智能芯片并不识别这个符号，但在训练两三个以这种方式书写的“7”后，它可以准确地将其识别为数字“7”。
汽车自动循迹控制增量学习演示，来源:清华大学。
这是什么？有什么用？
顾名思义，存储和计算的集成就是内存和处理器的集成。试想一下，人类在思考的时候，一直是把存储和计算融为一体的，不会出现分离的情况。这个架构是基于我们大脑的处理方法。
为什么我们需要集成存储和计算？在冯诺依曼瓶颈的经典计算机体系结构中，处理和存储是分开的。合并就是跨越两堵墙——存储墙和电源墙。
存储墙:冯诺依曼架构的存储与计算分离，会导致外部存储器的运行速度远低于处理器，整个系统会受到传输带宽瓶颈的限制，导致计算能力远低于处理器标定的理论计算能力；
功耗墙:在冯诺依曼架构中，数据在处理器和外部存储器中频繁高速传输，会导致系统功耗很高。同时，摩尔定律触及1nm，芯片特征尺寸进入量子效应显著范围，引起一系列次生物理效应，包括栅隧穿泄漏、载流子界面散射、强场速饱和、源漏寄生电阻增加，导致功耗密度快速增加。
当我们打破了两堵墙，数据就不需要来回运送了，就不会出现“堵车”的情况。此时整体功耗会更低。说白了就是不走弯路。
什么是忆阻器？它的全称是Memory Resistor，由Memory和Resistor两个英文单词组成，它代表的是第四个器件。
在电路中，电流I、电压U、电荷Q、磁通量φ这四个基本变量中，前三个分别对应电阻、电容和电感，磁通量φ代表磁通量和电荷的关系，即忆阻器，其特点是忆阻器能够记住流经它的电荷量。
根据材料和物理机制，忆阻器器件可以分为四种类型:阻变存储器(RRAM)、相变存储器(PCRAM)、磁随机存储器(MRAM)和f-ram (FeRAM)。此外，还有光电忆阻器、有机忆阻器和流体忆阻器。
不同类型忆阻器的参数比较，电子工程世界列表
参考物理学杂志。
存储和计算的集成也分为多种介质，不同的介质有不同的实现效果和重点，包括各种易失性存储设备和非易失性存储设备(NVM)。
其中，前沿研究更倾向于探索和设计具有成熟技术SRAM的存储-计算一体化架构，但SRAM存在瓶颈。随着技术的发展，CMOS扩展的难度会相应增加，芯片计算密度的增长会逐渐放缓。相比之下，非易失性存储器(NVM)在计算密度上显示出更大的潜力，但NVM尚未成熟，基于该技术的集成存储和计算架构短时间内难以得到广泛应用。
除了记忆和计算的集成，未来科学还会将忆阻器的应用范围扩展到“感知、记忆和计算的集成系统”，也就是说，未来的系统不仅是存储和计算一起进行，感知系统也会同时进行，计算效率会继续翻倍。
集成传感、存储和计算系统中使用的忆阻器的性能比较，电子工程世界列表
参考物理学杂志。
更值得强调的是，无论是记忆与运算集成还是忆阻器，都与类脑芯片或神经形态计算有关。毕竟他们已经在模仿人脑了。
类脑芯片在算法(SNN)和架构上完全模仿人脑计算的“突触可塑性”，是大脑记忆和学习的重要基础。它允许突触根据它们的活动加强或削弱，并由突触上的神经递质受体控制。
当然，类脑芯片是一个非常复杂的分支，用忆阻器实现的类脑芯片属于最难的一种，也是非硅基类脑芯片。
不同类型的类脑芯片实现了电子工程的世界。
说了这么多，整合存储和计算有什么用？总之，可以让芯片快速获得十倍甚至上百倍的能效比。低功耗是它最大的功能，降低功耗意味着移动设备可以有更多的想象空间，我们可以越来越多地利用现有的能源系统，达到更大的计算能力。
举个典型的例子，AlphaGo在国际象棋上打败了人类，但是人类只用了20瓦的大脑能耗，AlphaGo用了20000瓦。
当然，我们知道一项成果不可能在一夜之间转化为产业，而这项成果不仅涉及记忆和计算集成、忆阻器，还涉及仿生类脑处理。把这些东西组装起来，做出来就比较复杂了，技术含量有多高可想而知。
存算合一是否迎来新的增长机遇？
虽然我们一时半会儿可能很难看到这种芯片，但集成存储和计算的芯片近年来已经逐渐产业化。不知道这个消息会不会成为市场的助推剂。
其实大部分国际巨头都已经进行了相关的研究，比如英特尔、三星、IBM、东芝、SK海力士等工程师熟悉的公司，国际市场上最典型的新闻有:
三星在2021年2月发布了HBM2-PIM，通过TSV过孔垂直组合了四个常规DRAM管芯和四个具有计算功能的DRAM管芯。其工作频率为300 MHz，每个PIM-DRAM芯片上有32个PCU。2022年初，三星电子发布了首款基于MRAM的集成存储和计算芯片，并采用28nm CMOS工艺重构了MRAM阵列结构。
2021年5月，Mythic2021获得7000万美元C轮融资，2021年6月发布。它由72个AMP片组成，每个AMP片集成了一系列闪存单元、ADC阵列、一个32位RISC纳米处理器、一个16位SIMD矢量处理器、SRAM和一个片上网络(NOC)路由器，计算能力为25TOPS。
2018年，IBM通过PCM在数据存储位置执行计算，加速了全连接神经网络的训练。该芯片能效比是传统GPU的280倍，单位面积计算能力是传统GPU的100倍。
2016年，英特尔基于SRAM实现了支持逻辑运算的存储器，并在此基础上实现了支持无进位乘法的计算缓存。
另一方面，在国内，回顾几年前，涌现出一大批存算一体化的公司。这些公司大部分两年前还在A轮。当时很多公司都获得了1亿元的融资。短短两年时间，众多明星公司获得2~3轮新融资。赛道依然火热，资本依然看好这项新技术。
此外，许多产品正在逐渐出现:
今年5月，厚模智能正式发布了首款集成存储和计算的智能驾驶芯片——宏图H30。在12nm工艺下，芯片的物理计算能力达到256TOPS。采用Int8全精度计算，计算延迟仅为1.5ns，能效比30~150TOPS/W，比同精度计算条件下业界水平高出3倍以上。而且支持L4量产车型规格，这种存储和计算的一体化，在大计算力领域是走在前列的。
辛平科技研发并实现了多种基于SRAM的内存计算加速单元，致力于为人工智能行业提供低成本、高效率、低能耗、高性能的芯片解决方案。
九天睿芯拥有自己专利的模拟预处理和6T SRAM存储技术，解决了传统计算架构的瓶颈和功耗散热问题，实现了更低的延迟和更快的处理速度。
达摩院研发的集成存储和计算芯片是世界上第一个采用混合键合的3D堆叠技术，用特定的金属材料和工艺将计算芯片和存储芯片面对面互联。
不完全统计，制表和电子工程世界的国内公司与集成存储和计算
展望未来，存储与计算一体化从技术角度看有三个难点:一是设备特性难以满足所有要求，存储与计算一体化形式太多，但每个设备的侧重点不同，不一定能满足所有应用要求；第二，阵列存在泄漏路径、写串扰和寄生电容电阻问题；第三，现有的集成电路设计和集成技术无法满足需求，存储和计算的集成本身是为了低功耗，但外围控制辅助电路的面积和功耗较高，也会降低存储和计算集成的一部分收益。同时存储存在工艺差距，统一工艺增加硬件开销。3D异构集成是一种可行的方式。
从市场来看，存算一体化还是一个比较先进的技术，还在寻找应用阶段。目前只有厚模智能一家公司公开发起大规模落地，瞄准车辆监管层面，而多家公司更看好AIoT在低功耗、传感、存储、计算一体化、图计算、基因工程等方面的应用。当然，
在之前笔者与辛平科技的对话中，该公司也表示，存储与计算一体化的早期产品更容易出现在端侧对低功耗、高能效有强烈需求的场景中。随着智慧城市、智慧生态等应用的普及，从长远来看，存储产品的应用范围也可能延伸到超级计算能力领域。

作者：天富注册登录官网

清华研发出“世界第一”，这种芯片要火了？

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →