Ai存算一 体机能够处理大规模的实时ai数据采集是什么工作流吗?

5月25日,涵盖轻量级神经网络模型设计、模型压缩、AI推理引擎、嵌入式AI芯片架构创新等主题的GTIC 2021嵌入式AI创新峰会在北京举行。此次会议中,知存科技CEO王绍迪提出的“存算一体AI芯片”再度引发业界关注。所谓“存算一体AI芯片”,是指将传统以计算为中心的架构转变为以数据为中心的架构,其直接利用存储器进行数据处理,从而把数据存储与计算融合在同一芯片中,极大提高计算并行度与能量效率,特别适用于深度学习神经网络领域,如可穿戴设备、移动设备、智能家居等场景。本文将从传统计算架构面临的瓶颈出发,结合存算一体AI芯片的特性及竞争格局等方面做具体介绍。1、冯·诺依曼计算架构面临瓶颈在经典的冯·诺依曼计算架构下,数据存储与数据处理相互分离,存储器与处理器之间通过数据总线进行数据传输。在当前面向大数据分析的应用场景中,冯·诺依曼计算架构已成为高性能低功耗计算系统面临的主要瓶颈之一。一方面,数据总线的有限带宽严重制约处理器的性能与效率,另一方面,存储器与处理器之间也存在严重的性能不匹配问题。具体而言,在执行运算时数据从存储器经过数据总线进入处理器,数据处理后再转移到存储器当中。这就好比一个沙漏,其中沙子代表数据,沙漏两端分别代表存储器和处理器,连接沙漏两端的狭窄通道代表数据总线,存储器带宽在很大程度上限制了处理器的性能发挥,此种现象被称为“存储墙瓶颈”。此外,数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题,称为“功耗墙瓶颈”。由于存储墙瓶颈和功耗墙瓶颈的存在,冯·诺依曼计算架构不再适用于AIoT场景,因此亟需新型的计算架构应对未来应用场景的挑战。2、存算一体AI芯片的发展历程存算一体(Logic-in-Memory)最早可追溯至20世纪60年代,斯坦福研究所的Kautz等人于1969年提出了存算一体计算机概念,后续研究主要围绕芯片电路、计算架构、操作系统、系统应用等层面展开,如加州大学伯克利分校(UC Berkeley)Patterson等人成功把处理器集成在DRAM内存芯片当中,实现智能存算一体的计算架构。但受限于芯片设计复杂度与制造成本问题,以及缺少大数据应用驱动,早期的存算一体仅停留在研究阶段,并未得到实际应用。近年来随着物联网、人工智能等应用领域的兴起,技术得到国内外学术界与产业界的广泛研究与应用。2016年,美国加州大学圣塔芭芭拉分校(UCSB)的谢源教授团队提出利用RRAM构建基于存算一体架构的深度学习神经网络(PRIME),受到业界的广泛关注。测试结果表明,与基于冯·诺依曼计算架构的传统方案相比,PRIME可以实现功耗降低约20倍、速度提高约50倍。该方案可以高效地实现向量-矩阵乘法运算,在深度学习神经网络加速器领域具有广阔的应用前景。此外,杜克大学、普渡大学、斯坦福大学、马萨诸塞大学、新加坡南洋理工大学、惠普、英特尔、镁光等国际知名大学及企业均开展了相关研究工作,并发布了测试芯片原型。我国在这方面的研究也取得一系列成果,如中科院微电子所刘明教授团队、北京大学黄如教授与康晋锋教授团队、清华大学杨华中教授与吴华强教授团队、中科院上海微系统所宋志棠教授团队、华中科技大学缪向水教授团队等,相继发布相关器件和芯片原型,并通过图像/语音识别等应用进行了测试验证。3、存算一体AI芯片的主要特性存算一体计算的核心思想,主要是将带权重加乘计算的权重部分存在内存单元中,然后在内存的核心电路上修改,从而让读出的过程就是输入数据和权重在模拟域做点乘的过程,相当于实现输入的带权重累加,即卷积运算。同时,由于卷积运算是深度学习算法中的核心组成部分,因此存内计算非常适合AI,对未来AI芯片的存算一体和算力突破有所帮助。目前基于NOR Flash的存算一体芯片受到产业界的格外关注,其主要利用浮栅晶体管的模拟特性完成模拟乘加法运算。一个Flash存储器中有几十亿个Flash晶体管,如果每个Flash晶体管的模拟特性都利用起来,则可以达到几十亿个乘加法的并行运算单元。存储器中的矩阵自动完成向量×矩阵的运算,最多可以读取1,024个数据,相当于存储器一次可以完成一百万个乘法和一百万个加法的运算。如果用冯·诺依曼架构来执行,则需对存储器读取几万次左右,再做百万次的乘法和加法运算。在存算一体芯片中只需一次读操作就可以完成并行计算,运算效率可以显著提升。4、存算一体AI芯片的竞争格局自2016年UCSB发布存算一体AI芯片第一个样片以来,多家国内外初创企业陆续开展相关研发,如美国Mythic、Syntiant、中国知存科技和闪亿半导体等,并得到包括Intel、ARM、Bosch、Amazon、Microsoft、Softbank、中芯国际等国内外主流半导体企业与资本的产业投资。1)国外主要企业从国外情况来看,美国存算一体AI芯片初创公司Mythic于2020年底推出第一代AI芯片M1108,该芯片采用更加成熟的模拟计算技术,使得网络边缘设备访问更加容易。在典型的深度神经网络工作负载下,M1108可达到每秒35万亿次操作的峰值性能,功耗仅为4W。Mythic在今年C轮融资中筹集7,000万美元,由美国云服务供应商慧与科技和著名投资管理机构贝莱德领投,自成立以来Mythic的总融资额已达到1.65亿美元。此外,美国另一家专注于语音识别的存算一体AI芯片公司Syntiant也受到微软、英特尔、亚马逊、博世等国际巨头的支持,高通曾邀请Syntiant提供可穿戴设备芯片的语音解决方案。2)国内主要企业(1)知存科技知存科技为我国存算一体芯片的代表企业,其创始人王绍迪和郭昕婕夫妇均毕业于北京大学信息科学技术学院微电子专业,本科毕业后二人选择共同赴美留学。其中,王绍迪进入加州大学洛杉矶分校攻读博士学位,研究新型存储器,而郭昕婕选择加州大学圣塔芭芭拉分校,专注研究基于NOR Flash的存算一体芯片技术,并于2016年研发出全球第一个多层神经网络的存算一体深度学习芯片技术,首次完成存算一体的芯片验证。2017年王绍迪归国创立了知存科技,进军存算一体芯片市场,致力于开发基于浮栅技术的数模混合存算一体AI芯片,该芯片运算过程中无需缓存、内存和逻辑运算,彻底消除了冯·诺依曼计算架构的瓶颈,进一步提高运算效率并降低芯片成本。目前知存科技推出存算一体加速器WTM1001和存算一体SoC芯片WTM2101,WTM系列芯片用于低功耗AIoT应用领域,如可穿戴设备和智能终端设备。(2)闪亿半导体闪亿半导体于2019年推出一种新型的存算一体SoC芯片,其应用人工突触忆阻器技术,在实现深度神经网络模拟计算的同时,可极大降低人工智能模块的成本,将在未来的物联网生态中发挥重要作用。据了解,闪亿半导体于2017年创立,创始团队分别毕业于清华大学和北京大学,专注于研发和生产存储-运算阵列的SoC芯片。公司推出的闪锌石HEXA01作为首款集成PLRAM忆阻器阵列的芯片产品,其算力功耗比可达到10TOPS/W,而成本却比传统AI芯片下降一半以上,能够支持多种神经网络模型,广泛应用于家电和物联网设备的智能控制领域。(3)新忆科技新忆科技成立于2018年,是一家拥有核心技术和自主研发能力的创新型高科技公司,致力于成为新型存储器技术及应用的领军企业。公司主营业务为新型阻变存储器(RRAM)及其周边产品。包括基于RRAM的类脑计算芯片,采用新型的存算一体计算架构、独立式存储器、嵌入式存储器和周边的SoC产品,应用领域涵盖物联网、消费电子、医疗电子、网络通信设备、汽车电子和工业控制设备等。公司原始技术及创始团队均来源于清华大学新型存储器团队,联合创始人包括清华大学多位知名教授,团队拥有国际性的学术影响力和资深的行业经验。(4)恒烁半导体恒烁半导体于2015年11月完成第一款65nm NOR Flash产品研发,2016年1月系列产品开始送样、新产品流片;2017年3月,SPI NOR Flash出货量突破1亿颗;2019年2月,与中国科大团队共同研发基于NOR Flash的神经网络存算一体加速芯片开始流片,同年7月芯片系统演示顺利完成。5、存算一体AI芯片的市场前景目前存算一体AI芯片主要应用于音频类、健康类及低功耗视觉端侧应用场景中。在语音识别领域,存算一体AI芯片不仅能实现语音唤醒功能,并支持通话降噪、声纹识别等功能。此外,健康领域应用也可以通过存算一体芯片实现,由于健康类算法的运算量比语音类更小,因此芯片功耗相应更低。从下游市场空间来看,Mordor Intelligence Analysis数据显示,2018年全球可穿戴设备销量1.82亿件,预计2024年销量将达到5.16亿件,年均复合增长率19.01%。根据Strategy Analytics发布的数据,全球智能家居市场规模在2023 年有望达到1,570亿美元。在此背景下,存算一体AI芯片的市场前景将持续向好。版权免责声明:本文章出于业界同行交流的目的,内容仅供参考,不支持任何形式的决策依据及投资建议。关于文章内容,均是基于公众公司属性,根据其公开信息整理,不为未来变化做背书,未来发生任何变化与本文无关。部分内容、图文来自网络,其版权属原作者所有。如涉及作品版权问题,请与本知乎账号后台联系。}
关于存算一体芯片技术破局“内存墙”,存算一体路线分析随着人工智能应用的普及,云端相关的计算需求也在相应上升。对于基于神经网络的人工智能来说,算力是实现高性能模型的关键资源。参考文献链接https://mp.weixin.qq.com/s/pi8lDVuwpaGankzRGZ6Mzwhttps://mp.weixin.qq.com/s/7DBRyslROM3KEOT-KNTUkAhttps://mp.weixin.qq.com/s/rZV5CtIyxtKVhrRXtRVXKg在云端的人工智能计算中,“内存墙”是一个重要的性能瓶颈。在目前的主流计算机架构中,处理和存储是两个截然不同的部分,而随着摩尔定律几十年来的发展,事实上存储器(尤其是主存DRAM)的性能发展是要远远落后于处理器的计算逻辑性能发展的,因此DRAM速度(包括存取和接口)就成为了限制云端算力发展的一个瓶颈。另一方面,云端人工智能模型的发展潮流是模型参数越来越多,例如在推荐系统这样的云端人工智能传统项目中,典型模型的尺寸达到GB数量级;而在语音识别、自然语言处理、计算机视觉这样的领域中,最近随着transformer类模型逐渐占据主流,模型的参数量也在上升。这两者相结合,就是一方面人工智能计算对于内存的需求越来越高,而另一方面传统的DRAM方案并不能满足云端人工智能的需求。在这样的情况下,存算一体的方案正在获得越来越多的关注,并且正在慢慢由研究领域进入商用化。存算一体是指将内存和计算以相比传统计算机架构更紧密地结合在一起,从而减少内存访问带来地开销,并且解决“内存墙”问题。在云端计算的应用场景,存算一体方案主要是围绕DRAM去做创新,希望能将计算和DRAM能集成到一起,并以此降低内存访问的能量和延迟。对于具体的做法,实际上有两条主流技术路线:即近内存计算(near-memory computing)和存内计算(in-memory computing)。业内巨头在相关领域有所动作,往往是一项技术走向成熟和商用的标志。对于云端存算一体来说,我们最近看到三星和阿里巴巴在这个领域都有相关技术发表。三星在今年下半年的顶级商用芯片会议HotChips上发表了HBM2-PIM相关的技术,而阿里巴巴在基于3D封装实现存算一体的论文则收录在明年二月即将召开的国际固态半导体电路会议(ISSCC)上。从技术路线上来说,三星主要是走存内计算的路线,同时也兼顾近内存计算;而阿里巴巴目前则主要是针对近内存计算做开发。三星的存内计算路线三星的存内计算技术称为“Aquabolt-XL”,主要是基于其HBM2 DRAM技术做了存内计算(HBM2-PIM)。具体来说,Aquabolt-XL在HBM2 DRAM内部集成了计算逻辑,因此拥有HBM2-PIM技术的DRAM既可以当作一块普通的HBM2 DRAM来用(即直接写入读出,而绕开计算逻辑);也可以在写入和读出的时候同时让计算逻辑去做计算。当需要使用存内计算的时候,CPU只需要给HBM2-PIM写入数据以及相应的计算指令,而下次读出数据的时候可以直接读出已经计算好的结果。存内计算的技术路线中,计算逻辑和存储单元都是使用相同的DRAM工艺,因此通常存内计算逻辑的性能比较有限,时钟频率无法到达很高,做到高性能计算逻辑则需要依靠对于DRAM工艺的深厚积累和优化。另一方面,由于计算逻辑和存储单元是深度集成,因此计算逻辑可以以较小的开销最大化地调用存储单元,并且可以做协同设计和优化。最后,存内计算在HBM2 DRAM中实现之后,可以较快地应用到其他规格地存储器中,包括用于桌面地DDR/GDDR以及使用于移动端的LPDDR等。除了HBM2-PIM之外,三星还公布了近内存计算方案AxDIMM,实现了在每个DRAM芯片旁边都集成了一块单独的加速器逻辑并可以同时访问,从而等效地大大增加了访存带宽。对于三星来说,主要走存内计算技术路线非常符合其技术背景以及商业模式。HBM2-PIM技术实际上是一块带有计算功能且在人工智能应用中能提升系统性能地内存芯片,所以三星最终还是希望能通过这个技术来确保其存储器业务在人工智能时代能继续保持领先。此外,三星在DRAM工艺领域地积累也确保它能做到使用DRAM实现存内逻辑计算的最优化,以及集成的成本可以控制到较好。阿里的近内存计算路线与三星相对,目前阿里巴巴在存算一体领域走的是近内存计算的方案。根据目前公布的资料,阿里巴巴的存算一体方案是把计算逻辑芯片和DRAM使用3D封装技术封装到一起,从而利用封装带来的高IO密度来实现高内存带宽以及较低的访问开销。从发表在明年ISSCC论文中,我们也可以看到这项技术是由阿里巴巴达摩院和紫光共同开发而成。使用近内存计算可以让计算逻辑使用和存储器DRAM单元不同的工艺来实现,这样计算逻辑可以实现较高地性能和能效比。另一方面,这可能也是阿里巴巴这样并不掌握DRAM工艺的厂商入场存算一体最合理的方式了。同时,该技术使用的3D封装技术加上定制化的额外计算逻辑将会使整体成本较高,必须要找到合适的应用场景才能体现其价值。目前,该技术主要还是处于研发阶段,未来还有一些重要的工程化里程碑尚待解决,包括量产、良率等。在商业模式方面,阿里巴巴显然是以自用为首要目标,因此其存算一体研发主要的目标是能针对目标应用提供不受内存墙限制的计算解决方案,而不像三星一样是开发下一代存储芯片。从这个角度来说,只要阿里能确保这样的近内存计算存算一体解决方案在推荐系统等高价值应用中能提供足够的性价比(例如,比起采购GPU来说更便宜),就有进一步推动下去的动力。中国云端存算一体的未来目前,我们看到存算一体已经成为巨头争相研发的目标,未来有机会成为云端高性能计算领域的关键技术。我们同时很高兴看到中国的阿里巴巴在这个领域的成果。展望未来,我们认为存算一体的两个技术方向将会继续共存,其中近内存计算凭借其使用先进工艺节点的计算逻辑可以针对高价值应用场景做极致的加速优化,而存内计算则可能会成为下一代应用在高性能计算的存储器技术广泛应用在通用的计算场景中。中国在存算一体领域和三星这样的国际巨头的差距主要体现在存内计算领域。中国在DRAM领域的技术仍然相对落后,而如果要让存算一体真正进入大量部署,则必须要在DRAM中集成计算逻辑的方向也有突破。目前,我国在DRAM领域有大量投入,希望能在补足差距的同时,也能兼顾存内计算这样的前瞻性技术,从而能赋能中国的高性能计算和人工智能计算需求。自动驾驶芯片的算力焦虑,「存算一体」能解决吗?自动驾驶芯片,越来越「热闹」了。近年来,自动驾驶的普及以肉眼可见的速度加快,根据1月12日工信部数据,2021年新能源汽车销售352.1万辆,其中搭载组合辅助驾驶系统的乘用车新车市场占比达到20%。而两年前,L2级辅助驾驶的渗透率仅为3.3%。相伴而生的,是汽车「大脑」自动驾驶AI芯片的竞争加剧。英伟达、英特尔等老牌芯片企业早就瞄准了这一赛道,特斯拉、蔚来、小鹏等车企,黑芝麻、地平线、芯驰科技、寒武纪、后摩智能等国内芯片厂商也都纷纷入局。比如,蔚来汽车有自研芯片的计划;高通去年宣布和宝马合作,2025年使用高通骁龙Ride自动驾驶平台;初创公司有的直接聚焦在自动驾驶上,也有的业务范围更广,覆盖自动驾驶、智能座舱、中央网关、高可靠MCU等;收购、合作等关系网也在不断变动,这一战场的发令枪已经拉响了。然而,与常见的数据中心AI芯片不同,应用于汽车场景的AI芯片,在算力、功耗、性能方面都提出了更极端的要求。在摩尔定律逐渐失效、“存储墙”问题日益凸显的当下,汽车AI芯片到底需要提供多大算力?何种路径才是突破摩尔定律的存储墙壁垒的最接近落地方法?面对山头林立、秩序井然的芯片市场,初创公司的市场机遇和差异化优势又是什么?「存算一体」也许是个值得研究的答案。一笔取舍账,自动驾驶需要多少算力过去几年中,用于衡量一款自动驾驶芯片最直接的标准之一,就是算力高低。自动驾驶级别越高时,产生的数据越多,对芯片的算力要求也就越高。2014年时,最早应用Mobileye的第一代EyeQ芯片,算力只有0.256TOPS;2015年,就已有专门面向自动驾驶的平台,每年要迭代1-2次;英伟达也预告将在2025年上市1000T算力的Atlan芯片。算力的不断提升,是否意味着自动驾驶的需求已经得到了满足,自动驾驶玩家们可以跑出算力焦虑了?远还没有。一方面,大算力也意味着更高的成本。实际上在现有的自动驾驶芯片中,单片算力很难满足高级别自动驾驶的需求,车企或自动驾驶企业多会采取“堆料”的方式,用芯片数量的增加来实现大算力。成本的增加不可避免,难以推动自动驾驶技术的规模化应用,车企也很难实现技术和商业的平衡。另一方面,除了对算力需求高,智能驾驶场景也对芯片的功耗和散热有很高的要求。服务于丰田的创业者Amnon Shashua曾在多个场合表示过,效率比算力更重要。具体解释,算力、功耗、成本就像是一个三角架构,一角的增减要用另一角来填补才行。除此之外,「算力」并不真正代表着「性能」。1000Tops的芯片参数,并不意味着这块芯片在实际应用中能够发挥出1000Tops的真实性能。在当前的冯·诺伊曼架构当中,内存系统的性能提升速度大幅落后于处理器的性能提升速度,有限的内存带宽无法保证数据高速传输,形成了一道“存储墙”。一方面,大量的计算单元受限于带宽的限制,无法发挥作用,造成算力利用率很低;另一方面,数据来回传输又会产生巨大功耗,进一步加大汽车电动化大潮下的里程焦虑。因此,仅仅简单用算力高低来评估,远远达不到自动驾驶的需求。汽车AI芯片不仅需要大算力,更要有实际利用率的大算力,而且能够保障低功耗、低延迟以及可承受的成本。存算一体,金字塔从头建起为了解决“存储墙”问题,当前业内主要有三种方案:用GDDR 或HBM来解决存储墙问题的冯·诺依曼架构策略;算法和芯片高度绑定在一起的DSA方案;以及存算一体的方案。HBM是目前业内超大算力芯片常用的方案之一,其优势在于能够暂时缓解“存储墙”的困扰,但其性能天花板明显,并且成本较高。DSA方案以牺牲灵活性换取效率提升,算法和硬件高度耦合,适用于已经成熟的AI算法,但并不适用于正处于快速迭代的自动驾驶AI算法中。最后是存算一体方案,这是一项诞生于实验室的新兴技术,其创新性在于打破了传统·冯诺伊曼架构局限性,实现了计算与存储模块一体化的整合创新,解决了传统芯片架构中计算与存储模块间巨大的数据传输延迟、能量损耗痛点,既增加了数据处理速度,又大大降低了数据传输的功耗,从而使芯片能效比(即每瓦能提供的算力)得到2-3个数量级(>100倍)的提升。达摩院计算技术实验室科学家郑宏忠曾讲过:“存算一体是颠覆性的芯片技术,它天然拥有高性能、高带宽和高能效的优势,可以从底层架构上解决后摩尔定律时代芯片的性能和能耗问题。”因此,存算一体架构可以把算力做的更大,其芯片算力天花板比传统冯·诺依曼架构更高;同时,大幅降低了数据传输的能量损耗,提升了能效比;另外,还能得到更低的延时,存储和计算单元之间数据搬运的减少,大幅缩短了系统响应时间。更重要的是,用存算一体架构做大算力AI芯片另一大优势在于成本控制。不依赖于GDDR 或HBM,存算一体芯片的成本能够相应的降低50%~70%。换句话说,真正创新架构的AI芯片是将上文中提到的算力、功耗、成本三角形结构从原来的位置往上挪了三个档位。不仅可以提高算力,还可以达到降低功耗、控制成本的效果。摘取「高挂的果实」最近几年,在缺芯的时代背景下,随着政策支持的不断加码,我们看到国内半导体产业迎来了发展的良机。芯片的“国产替代”已经在很多细分领域取得了进展,深受资本市场青睐。但是资本市场也有越来越多的人意识到,热门芯片赛道的“国产替代”创业项目已经日趋饱和。一部分嗅觉敏锐的投资人开始关注后摩尔时代的“创新架构”,认为要想在纯市场化竞争中挑战英伟达等国际芯片巨头,必须另辟蹊径。于是差异化的技术创新成为芯片投资中的重要策略。HBM、DSA、存算一体都属于芯片行业当前的技术创新路径,三者对比来看,存算一体可以算作是一条难度最大、颠覆性最强、风险最高,但差异化和创新性也最显著的路径。近年来,国内外涌现出不少专注于存算一体芯片的新兴创企,巨头们纷纷加快了产业布局,资本也对其青睐有加。国内最近一笔相关融资来自今年4月,国内存算一体明星创企「后摩智能」宣布获得数亿人民币Pre-A+轮融资。不过,一直以来,传统的存算一体研究大多集中在低功耗、低算力的「小」芯片场景中,比如语音、AIoT、安防等边缘领域。能够应用在车载AI的存算一体「大」算力芯片,即便在学术界也是一大难题,产业界敢于迎战者更是屈指可数。想要将二者融合,既需要存储单元阵列、AI core、工具链等各个方面都需要有深厚积累的团队,又需要进行整体的协同优化设计,才能最终实现一款高效的基于存算一体的大算力AI芯片。所幸,这一创新性技术已经让市场看到了落地可能性。5月23日,后摩智能首款基于SRAM的存算一体大算力AI芯片已成功点亮,并跑通智能驾驶算法模型。首次在存内计算架构上跑通了智能驾驶场景下多场景、多任务算法模型,为高级别智能驾驶提供了一条全新的技术路径。存算一体很难,存算一体大芯片更难。但在产业巨头林立,市场秩序森严的芯片产业,新兴创企若是只愿意选择容易走的路、采摘「低垂的果实」,是难以取得成功的。在保证存算一体带来的高能效比、高性价比的前提下,又能将其成功扩展到满足自动驾驶「大」算力需求的级别,属于产业中「高挂的果实」。从成立之初就聚焦于存算一体大算力芯片的后摩智能,正是瞄准了这一道路。以团队组成来说,后摩智能的核心创始团队既有来自美国普林斯顿大学、UCSB, Penn State大学等海内外知名高校的学术人才,又有在AMD、Nvidia、华为海思、地平线等一线芯片企业中拥有丰富大芯片设计与实战经验的产业专家。今年5月大算力存算一体芯片宣布点亮,对于后摩智能来说,离摘取「高挂的果实」已经越来越近了。传统高算力芯片山头林立,后来者想要在现有赛道上实现超越,确实是充满挑战的。但随着HBM等昂贵方案的不断的提出,冯·诺伊曼架构的最后一丝红利已经被榨干,市场迫切地需要新架构、新出路。在AI算法快速迭代,摩尔定律逐渐失效的当下,我们期待看到越来越多像后摩智能这样愿意投身于基础创新的芯片创企,不断推进产业走向下一个时代。ReRAM 「存算一体」应用于AI大算力的新思路亿铸科技以全数字的技术思路将ReRAM “存算一体”应用于AI大算力领域,它能否打破传统冯诺依曼架构下的存算墙、能耗墙和编译墙?一座座数据中心正在拔地而起,为全国输送着源源不断的算力。但数据计算往往伴随着巨大的功耗,因此发展数据中心和实现“双碳”目标之间存在着巨大的矛盾。在“碳中和”已经成为全球共识的当下,国家在近段时间推出的“东数西算”工程受到了社会各界广泛关注。“东数西算”通过在全国布局8个算力枢纽,引导大型、超大型数据中心向枢纽内集聚,形成数据中心集群,以此优化资源配置,提升资源使用效率。虽然“东数西算”为优化数据中心的供能结构提供了政策助力,但并不能从技术层面解决既有算力能效比和算力能耗绿色发展需求之间的根本矛盾。计算芯片的功耗向来是芯片制造工艺演进中备受关注的指标之一。在后摩尔时代,单纯通过工艺制程的提升降低芯片功耗的路径也日渐捉襟见肘,已经接近摩尔定律的物理极限。此外,巨大的生态依赖性也牵扯着各个AI应用场景的发展进程。但随着基于ReRAM的全数字存算一体架构大算力、低功耗、易部署芯片的研发和产业化,这一难题似乎有了新的解决思路。存算一体打破“存算墙”和“能耗墙”在芯片产业发展的过程中有两座绕不开的大山:“存算墙”以及“能耗墙”。1946年,美籍匈牙利科学家冯·诺依曼(J.Von Neumann)提出了著名的存储程序原理,此后70余年,现代计算机发展到第五代,存储器经历磁存储,光存储等一路发展至半导体存储,而冯·诺依曼结构是当下最主流的计算机结构的地位却从未变过。但随着时代的飞速进展,存算分离结构的天生缺陷使得冯·诺依曼结构的电子计算机似乎已经难以满足数据处理更海量、更快速、更低耗的需求。为什么说冯·诺依曼结构存在天生的缺陷?这是因为在该结构设计中,CPU访问存储器的速度决定了系统运行的速度,这也使得系统对存储器产生了绝对的依赖。随着半导体技术快速发展,CPU的运算速度已经远远超过了访存速度,前者通常是后者的200倍以上,CPU在执行指令间不得不等待数据。CPU和内存之间的数据传输带宽,以及传输过程中每一层代码的手动优化,都成为限制计算机性能进一步提高的瓶颈,带来“存算墙”问题。而AI计算在处理大量数据的过程中,这些数据需要在计算和存储单元中进行频繁的移动,移动受制于关键部件的技术瓶颈,也带来了芯片面积增加、接口IP成本增加、功耗增加等一系列问题,也就产生了“能耗墙”问题。尤其当工艺制程的发展开始进入后摩尔时代,业界对于解决这一问题的全新的技术路线显得更加渴求和迫切——于是,“存算一体”便被提了出来。这是一种将存储和计算有机结合的非冯诺依曼架构,理论上计算可以直接在存储器中进行,这样既打破了系统对于存储器的绝对依赖,还能够极大地消除数据搬移带来的开销,彻底消除“存算墙”以及“能耗墙”的问题。新型存储ReRAM,实现存算一体的最优解既然理论上是可行的,那么实际又该如何实现存算一体呢?大体上看,市面上大概有三个流派的方案实现存算融合:一是利用先进封装技术把计算逻辑芯片和存储器(如DRAM)封装到一起,以高IO密度来实现高内存带宽以及较低的访问开销,或采用更先进的制程工艺,比如2.5D、3D的封装以及高位宽的HBM接口等,实现近内存计算;二是在传统DRAM、SRAM、NOR Flash、NAND Flash中实现存内计算;三是利用新型存储元件实现存算一体。但可惜的是,大部分技术还是无法真正地解决“储算墙”和“能耗墙”的问题。随着亿铸科技推出基于ReRAM研发的“全数字存算一体”技术,上述问题似乎有了解法。该芯片材料特性以及生产工艺相对成熟,可突破性能不足、使用场景受限、制造成本过高等多种问题,更易于实现大范围普及和商业化应用。不仅如此,基于忆阻器(ReRAM)技术的计算单元可以通过阻值器件的存储记忆特性,利用基础物理定律和原理完成海量的AI计算;通过存算一体的架构,可以节省把数据从内存单元逐层搬迁到计算单元的环节,从而得以节省因为数据搬迁而产生的大量衍生成本,这此类方式也符合国家对于碳中和、碳达峰的技术发展路线,改变了传统AI运算数据量需要带来巨大能耗的现状。从年增长率、速度、可扩展性、与CMOS的兼容性、IEEE认定的新型存储介质要素、实际商业化进程等方面来看,ReRAM在与诸如相变存储器、MRAM等其它新兴存储技术相比中,表现都是非常优异的。ReRAM的强大优势吸引了大量厂商的争相研究和应用落地,包括台积电、联电、格罗方德、中芯国际以及昕原半导体等均已建立了可量产的商业化ReRAM产线,其中昕原半导体的国内第一条28nm制程后道产线,已可以量产商用出货。亿铸ReRAM全数字存算一体技术:具备大算力、低功耗、易部署的三大优势在ReRAM存算一体赛道涌入大量玩家的环境下,谁又能拿到突围的先发优势呢?当下,ReRAM存算一体这个赛道有两种解决方案,一种是模拟的,一种是全数字的,模拟方案天然吻合信号量的物理特性,但却存在一定的精度受限的问题,另外它还会产生模拟和数字之间频繁转换的衍生成本。作为业界首家采用全数字路线耕耘于基于ReRAM的存算一体大算力芯片的公司,亿铸科技采用的是另一种:全数字解决方案。基于ReRAM研发“全数字存算一体”的算力芯片,可以最大范围提高产品精度,解决以前存算一体技术中模拟芯片低精度问题。此外,该方案还节省了模拟技术的衍生成本,形成了一套既能保证精度同时又能最优化面积和功耗的解决方案。基于ReRAM的全数字存算一体AI计算架构,除了能有效地解决存算墙和能耗墙的问题之外,还可以解决当下的AI应用面临的“编译墙“问题。在冯诺依曼架构下,计算非常依赖多级存储的架构, 这种架构对编译器非常不友好。编译器在编译代码的过程中无法感知代码的动态特征,会出现卡顿、延迟的情况,而全数字存算一体可以把这些特征变成编译器直接感知的资源,保证时延确定性的同时自动优化资源的分配,可以方便客户快速部署各类算法。全数字存算一体架构时延确定和易部署的特性非常适合于自动驾驶的场景。自动驾驶包含的各类人工智能算法在运行之时会存在不同程度的时延问题,而存算一体的技术不仅可以解决时延不确定的问题,也可以提升系统的整体性能。除了解决时延问题,还具有密度高、容量大、能效比高,能满足自动驾驶大吞吐计算需求,在物理稳定性上也能满足车规级产品在温度变动、震动、稳定性的要求。全面自主研发国产替代从芯片发展的历史来看,任何广泛应用的好产品都必须与成熟工艺紧密合作,比如台积电与英伟达在历史上的联合调试,不断优化台积电的先进工艺制程。而在ReRAM架构的全数字存算一体AI计算芯片这个领域,昕原半导体将会和亿铸科技强强联手、紧密调试,再现当年英伟达和台积电双剑合璧、共同发展先进制程工艺的经典案例。昕原半导体基于Metal Wire工艺,在ReRAM器件的设计和制造工艺已经实现了全国产化,昕原半导体已经完成业界首款28nm制程ReRAM芯片流片,并且,已建成中国大陆首条中试线,拥有了垂直一体化存储器设计加制造的能力。此外,昕原半导体采用对CMOS友善的材料,能够使用标准的CMOS工艺与设备,对产线无污染,整体制造成本低,可以很容易地让半导体代工厂具备ReRAM的生产制造能力,一旦在自动驾驶和AI等领域产生突破性的应用真正起量,工艺马上就能够跟上,这对于量产和商业化应用都有很大优势。近年来,国际形势的变化,使得半导体产业链面临的不确定性增加。也让国产化成为半导体企业的重要建设主题之一。亿铸科技和昕原半导体的联合,也将会使得亿铸科技基于ReRAM全数字存算一体架构的大算力、低功耗芯片相关技术完全自主可控,实现从IP到生产的全国产化。亿铸:小荷才露尖尖角,早有蜻蜓立上头。尽管亿铸科技现在十分年轻,2021年10月才开始在上海正式运营,但它已经是目前国内唯一自主设计基于忆阻器(ReRAM)的“存算一体”大算力芯片的公司。2021年底,亿铸科技完成由中科创星、联想之星和汇芯投资(国家5G创新中心)联合领投的天使轮融资。值得注意的是,领投方均是硬科技投资领域的著名机构。那么,能在如此多巨头涌入的赛道中打出自己的优势,并受到如此多资本的青睐,亿铸科技的底气是什么?这个答案便是亿铸内部一支由产、学、研各界资深技术专家、精英工程师、创新领军人才、产业化先驱组成的国际化创业团队:- 公司高管团队均拥有20+年不同类型芯片及系统软件研发、管理、市场、创业经验。- 公司研发团队成员来自于国内外多家知名芯片企业和多所国内外著名大学,比如斯坦福、德州大学、上海交大、复旦大学和中科大等,已在具备顶尖学术和产业价值的顶会发表论文达40+篇,超过国内其他同类赛道团队的顶会论文总和, 研究成果已在不少知名头部公司商用化。- 核心设计团队完整覆盖器件、芯片架构、SoC设计、软件系统及AI算法等全部技术领域。- 工程团队也拥有丰富的芯片设计与流片经验丰富,能力卓越。综合学界和产业界头部精英人才的强强组合,亿铸科技的团队已完全覆盖存算一体芯片底层的物理层、电路设计、架构全栈、芯片产品参考设计方案、商业化落地以及生态建设等各个方面的需要。后摩尔时代的AI算力赛道,期待新技术的弯道胜出全球AI算力需求迅猛增长。2012年至今,云端AI算力已经增长了超过30万倍,在未来的很长一段时间内,也将保持这个增速。正因如此,国家大力支持相关产业发展。2020年是真正意义上的新基建元年,AI 算力作为AI技术与产业大规模发展的巨大驱动力,将成为整个新基建的核心支撑。但在后摩尔时代,AI算力的普及应用始终面临存算墙、能耗墙和编译墙三座大山的掣肘,致使“高算力、低功耗、易部署”的市场呼声也越来越高涨。但在传统AI算力厂商先发优势的客观环境下,后来者很难在既有技术赛道上实现追赶。然而在新的技术领域比如基于ReRAM存算一体做大算力芯片,各国还处在同一起跑线,国内比如亿铸等先进初创公司已经起跑。“时势造英雄。”每一次计算构架的大变革都会创造一个新的王者。从主机时代的IBM、PC 时代的英特尔到移动时代的高通,智能物联网时代必将会是新技术架构贡献者的天下,我们期待ReRAM存算一体全数字计算这一新技术能够成为解决存储墙、能耗墙、编译墙的新方案,在弯道胜出。参考文献链接https://mp.weixin.qq.com/s/pi8lDVuwpaGankzRGZ6Mzwhttps://mp.weixin.qq.com/s/7DBRyslROM3KEOT-KNTUkAhttps://mp.weixin.qq.com/s/rZV5CtIyxtKVhrRXtRVXKg}

我要回帖

更多关于 ai数据采集是什么工作 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信