加减奶茶官网

  • 新闻中心
  • 而不是得分王或者”对此

    2024-07-19 01:18:03 而不是得分王或者”对此

    K8凯发支持

    一种蛋白可减缓前列腺肿瘤生长科技日报讯(记者刘霞)在全球范围内,前列腺恶性肿瘤是男性癌症死亡的第二大常见因素?据物理学家组织网近日报道,由奥地利维也纳医科大学综合癌症中心领导的国际❄研究团➵队发现,JUN蛋白可以减缓前列腺肿瘤生长?这一研究为治疗前列腺癌提供了新思路!此前有大量研究表明,JUN蛋白在癌症中过量产生;因此,肿瘤生长和高JUN蛋白水平之间存在关联;但最新研究表明,前列腺癌的情况正好相反!研究团➵队对小鼠模型和临床样本进行调查发现,当JUN蛋白高水平存在时,前列腺癌的恶化程度并没有加速`,而是减缓?当JUN蛋白缺失时,肿瘤则生长得很快;早在20世纪80年代,科学家就发现,JUN蛋白在基因激活和细胞生长等各种过程中发挥着重要作用?最新研究显示,JUN蛋白通过影响身体的免疫反应,参与对前列腺癌的调节!如果该蛋白缺失,某些免疫细胞在肿瘤微环境中的集结就会被破坏,导致癌症加速`恶化;这可以解释为什么前列腺癌对免疫治疗的反应不佳,同时有助于科学家了解如何重新激活局部免疫反应?研究表明,激活JUN蛋白可能是减缓前列腺癌恶化的一种潜在策略,但仍需深入调查以验证这一理论;一种集成FPGA和DSP芯粒的异构系统级封装如果您希望可以时常见面,欢迎标星✥收藏哦~摘要:将多个异构芯粒集成在一起进行封装是一种具有广阔前景且成本效益高的策略,它能够构建出既灵✤活又可扩展的系统,并且能有效加速`多样化的工作负载?在此基础上,我们提出了Arvon,它使用嵌入式多芯片互连桥(EMIBs)将一个14nmFPGA芯粒和两个紧密排列的高性能22nmDSP芯粒集成在了一起;芯粒间通过一个1.536-Tb/s的高级接口总线(AIB)1.0接口和一个7.68-Tb/s的AIB2.0接口进行互连!Arvon是可编程的,支持从神经网络(NN)到通信信号处理的各种工作负载;每个DSP芯粒在半精度浮点运算中提供了4.14TFLOPS的峰值性能,同时保持了1.8TFLOPS/W的能效?我们还开发了一个能够为FPGA和DSP分配工作负载的编译程序,以此来❄优化系统的性能和资源利用率;我们使用36-μm-pitch微凸块实现的AIB2.0接口达到了4Gb/s/pin的数据传输速`率,包括适配器在内的能效为0.10–�0.46pJ/b?其Shoreline带宽密度达到1.024Tb/s/mm,areal带宽密度达到1.705Tb/s/mm2!I.介绍随着机器学习、机器人技术和5G/6G通信等领域的快速`发展[1],[2],[3],[4],用于这些领域的DSP工作负载正变得越来❄越动态和多样化!一个灵✤活且计算效率高的硬件系统能够很好地满足这些需求!这样的系统可以集成多个组件,包括CPU、FPGA以及DSP加速`器等,其中CPU或FPGA提供了系统所需的灵✤活性,DSP加速`器提供了高效的内核加速`;实现这类系统的一种方法是设计并制造一个单片系统级芯片(SoC);然而,构建一个大型SoC有着高昂的时间成本和经济成本?对此,作为一种成本效益高且可行的替代方案,采用2.5D或3D芯粒集成的异构系统级封装(SiP)为构建大规模系统提供了一条有希望的途径,以实现与单片集成相媲美的性能,同时避Q免了与单片集成相关的高成本、高风险和高工作量!SiP由称为芯粒(chiplet)的互连组件组成;每个芯粒都包含一个功能模块,可以在最适合的技术节点上制造,以获得最佳性能和效率?由于每个芯粒在尺寸上更小、功能上更专一,因此其设计复杂性会降低,而产量则会提高?通过选择已知良片(KGD)来❄组装SiP,可以提高系统产量;在未来❄设想的芯片生态中,我们可以从不同的供应商那里采购经过验证的芯片,并在构建多样化的系统时重复利用它们,这样就能有效地克服在快速`开发新系统过程中遇到的挑战和障碍;图1展示了一种多功能加速`器的SiP解决方案,它整合了一个FPGA芯粒、一个DSP加速`器芯粒,以及可能包括的扩展芯粒,比如模数转换器(ADC)或光学收发器?这种异构SiP设计能够灵✤活地将各种动态DSP工作负载——从机器学习到通信信号处理,映射到其上?FPGA芯粒提供必要的自适应性,DSP芯粒贡献高效的计算能力,而扩展芯粒则提供了与前端(FE)组件如传感器、无线或光接口的连接!在SiP内部,芯粒之间的芯片间接口对于数据传输至关重要,它必须提供足够高的带宽,以确保与单片SoC相匹敌的性能,同时维持较低的每比特能耗,确保整个解决方案保持竞争力?图1ArvonSiP通过异构集成FPGA、DSP和FE芯粒,实现灵✤活的工作负载映射近期的研究展示了在具有高带宽和高效的die-to-die接口的SiP中集成芯粒的成果[5],[6],[7],[8],[9],[10],[11]?在文Q献[5]中,两个双Arm核心芯粒集成在chip-on-wafer-on-substrate(CoWoS)上,具有8-Gb/s/pin的低电压封装内互连(LIPINCON)接口!在文Q献[6]中,36个深度神经网络(DNN)加速`器芯粒使用25-Gb/s/pin的地参考信号(GRS)接口[7]集成在有机基板上?在文Q献[8]和[9]中,四个运行时可重配置的通用数字信号处理器(UDSP)集成在具有1.1Gb/s/pinSNR-10接口的硅✤片互连结构(Si-IF)中介层上?IntAct[10]则在活性硅✤中介层上集成了六个16核芯粒,使用了1.2-Gb/s/pin的3-D-Plug接口?这些成果代表了同构集成的典型应用,通过将模块化芯粒的多个实例拼接在一起,有效地扩展了计算系统的规模?在Arvon中,我们展示了不同类型芯粒的异构集成,以构建一个用于DSP工作负载的多功能加速`器!Arvon由一个14nmFPGA芯粒和两个通过嵌入式多芯片互连桥(EMIB)技术[12],[]集成的22nmDSP芯粒组成;我们原型化了第一代和第二代开放式高级接口总线(AIB)芯片间接口,分别称为AIB1.0和AIB2.0,用于连接这些芯粒!结果在一个SiP中得到展示,该SiP能够有效地加速`各种机器学习和通信DSP工作负载,同时保持较高的硬件利用率;这项工作还展示了AIB2.0接口,该接口在能效为0.1pJ/b的情况下实现了1Tb/s/mm的海岸线带宽密度和1.7Tb/s/mm2的面积带宽密度?本文Q的其余部分安排如下:第二部分概述了ArvonSiP;第三部分详细阐述了AIB接口的设计,包括物理层(PHY)I/O、时钟分布和总线适配;第四部分深入探讨了DSP芯粒及其矢量引擎设计的细节?第五部分讨论了各种工作负载的映射;第六部分介绍了硅✤片测量和系统评估!最后,第七部分对本文Q进行了总结!II.ARVON系统概述Arvon系统概览如图2所示!该系统包括一个FPGA芯粒和两个DSP芯粒实例,分别命名为DSP1和DSP2;DSP2是DSP1的物理旋转版本!FPGA使用EMIB技术通过AIB1.0接口连接到DSP1,而DSP1使用EMIB技术通过AIB2.0接口连接到DSP2!Arvon提供了三种操作模式,如图2所示?在模式1和模式2中,FPGA分别连接到DSP1和DSP2,并将通用计算核心卸载到DSP上面;这些通用核心包括在神经网络(NN)和通信工作负载中至关重要的矩阵乘法(MMM)和二维卷积(conv);在模式3中,DSP1和DSP2被组合起来❄以增强计算能力?DSP2也可以被FE芯粒(例如光学tile或ADCtile)取代,以实现完整的通信或传感系统!图2ArvonSiP支持的数据流模式:在模式1和模式2中,FPGA连接到其中一个DSP?在模式3中,FPGA同时连接到两个DSPADSP芯粒DSP芯粒可为计算密集型工作负载提供卸载和加速`功能;DSP芯粒的设计如图2所示?芯粒的两侧都放置了芯片间接口?在西侧,有24个AIB1.0接口通道,为与FPGA的通信提供1.536Tb/s的带宽!在东侧,有24个AIB2.0接口通道,为与另一个DSP的通信提供7.68Tb/s的带宽!芯粒包含三个DSP集群,每个集群提供1024个16位半精度浮点处理元素(PE);每个集群最多使用8个AIB1.0接口通道和8个AIB2.0接口通道进行输入输出?使用低抖动环形锁相环(PLL)为DSP集群以及AIB1.0和AIB2.0接口生成时钟;沿着芯粒顶部和底部有两排通用输入/输出(GPIO)端口,便于进行全局配置和调试?BFPGA主机芯粒FPGA在实现Arvon的灵✤活性方面发挥着关键作用?FPGA的可编程逻辑被用来❄支持各种任务,例如为DSP执行转置和洗牌等数据处理操作!此外,FPGA也可以用来❄提供DSP上没有的特殊功能,从而能够满足完整的处理需求;在Arvon中,FPGA充当主机的角色,采用如图3所示的基于指令的处理器形式出现?一个简单的主机处理器配备了指令存储器、用于存储输入输出数据数据和权重数据的数据存储器,以及一个用于管理和协调与DSP芯粒进行数据传输的直接内存访问(DMA)单元!指令用于在运行时配置和重新配置DSP,引导数据存储器和DSP之间的数据流,以及执行DSP的前处理和后处理;当FPGA内的主处理器触发并从指令存储器中读取首条指令时,工作负载的执行便正式启动?这些指令详细说明了所需的所有信息,包括数据内容、寄存器访问地址、存储器地址、总线地址、DMA进行读写操作的数据长度,以及执行的先后顺序?根据指令,主机处理器生成AXI总线事务以访问发送到DSP的DSP配置寄存器!同时,它也会发布DMA命令,用以从数据存储器读取或写入数据,以及向DSP进行数据的读取和写入?鉴于DSP中矢量引擎的处理时间较快,包括主机处理器在内的FPGA实现得到了高度利用,以最小化延迟并防止任何潜在的瓶颈!图3FPGA主机实现示例III.AIB芯片间接口在DSP芯粒内,其西侧集成了24个AIB1.0接口通道[14],东侧集成了24个AIB2.0接口通道[14]!AIB通道由两层组成:适配器层和物理层I/O层;适配器层负责协调DSP核与物理层I/O之间的数据传输?它负责这两个域之间的数据成帧和!状态机用于启动AIB链路并启用自动时钟相位调整;这种调整有助于确定数据的眼宽和中心?在AIB2.0中,适配器还支持可选的数据总线反转(DBI),从而减少了总线切换活动并提高了能效;AIB接口的物理层实现了源、短距离、低延迟和并行单端I/O!在双数据速`率(DDR)模式下,AIB1.0的每个I/O端口通过全轨信号传输,提供从1Mb/s到2Gb/s的带宽范围;而AIB2.0则进一步在DDR模式下,通过0.4V至全轨信号的摆幅变化,实现了从1Mb/s至4Gb/s的带宽,从而显著提升了数据传输速`率?单个AIB1.0通道由96个引脚组成,其中包括2个TX时钟引脚、2个RX时钟引脚、20个TX数据引脚、20个RX数据引脚以及用于边带控制的和冗余的附加引脚!相比之下,单个AIB2.0通道由102个引脚组成,其中包括两个TX时钟引脚、两个RX时钟引脚、40个TX数据引脚、40个RX数据引脚以及用于边带控制的和冗余的附加引脚?AIB2.0在AIB1.0的基础上进行了改进,它将每个引脚的数据传输速`率和每个通道的数据引脚数量增加了一倍,从而将数据传输带宽提高了四倍?此外,AIB2.0还通过使用低摆动信号提高了能效?AIB1.0和AIB2.0的对比总结见表I!值得注意的是,AIB1.0与AIB2.0有着相似的设计结构;表IAAIB2.0适配器AIB适配器管理DSP核与PHYI/O层之间的数据传输?数据路径包括TX端的串行器和RX端的并行器!图4展示了一个数据传输实例;在芯粒1中,一个AIB2.0TX通道每次✽从DSP核收集四条80位宽的数据流,DSP核的时钟频率为500MHz?使用两级2:1多路复用器实现的串行器将并行数据流转换为单条80位宽的数据流进行传输!在可选用的DBI之后,80位数据被分为高低两个40位的段,这两个数据段分别发送至40个TXI/O单元的data0和data1引脚!在DDR模式下这些TXI/O单元以2GHz的频率运行,每个单元每次✽传输2位数据,从而实现了4Gb/s的有效数据传输速`率!差分的2GHzTX时钟与数据一起被转发到芯粒2!在芯粒2中,一个AIB2.0RX通道负责接收来❄自40个RXI/O单元的80位宽数据?在DDR模式下,数据以2GHz的频率进行采样?随后,接收到的数据流通过并行器处理,其采用两级1:2的解复用器实现,将数据恢复成四路80位宽的数据流?接收到的TX端的时钟信号通过可调节的延时线进行微调,以适配RX端I/O单元的采样时钟需求!1)自动时钟相位调整:在链路的初始化阶段,RX时钟相位会进行调整,以便在最佳点对RX数据进行采样;适配器采用自动RX时钟相位调整机制;TX负责发送一个已知的伪随机二进制序列(PRBS),而后RX则利用可配置的延迟线扫描从TX接收到的时钟信号的延迟,从而监测潜在的错误;通过分析接收到的PRBS序列中的错误模式,RX端能够估算出眼图的边界!这样做的目的是将延迟以及采样点设置在估计的眼图中点!2)数据总线反转(DBI):AIB2.0支持数据总线反转,这有效地减少了单端及源接口中的转换和开关输出(SSO)噪声♡?图5展示了一个1:19比例的DBI编码器和解码器;在TX端,80位数据由四个并行DBI编码单元进行编码;每个单元获取19位数据线的值(在图5中由icurr[18:0]表示),并计算先前编码的数据(iprev[18:0])中已发生转换的位数;如果计数超过10(20比特的一半),则DBI编码单元会反转这些位,并给DBI位分配一个高(HIGH)值;如果计数等于10,并且前一个DBI位已经是高(HIGH),则DBI位保持高(HIGH)!如果上述条件都不满足,数据保持不变,DBI位被设置为低(LOW)!然后,DBI位与编码后的19位数据结合,打包成20位的TX数据,并发送到20个I/O单元;在RX端,采用四个并行DBI解码单元!如果DBI位(接收到的20位数据块的最高位)为高(HIGH),则每个单元将反转接收到的19位数据位,如果DBI位为低(LOW),则数据保持不变!图4AIB2.0通道顶层图和自动时钟相位调整图51:19比例DBI编码器(上)和解码器(下)BAIB2.0I/O图6展示了一种紧凑型统一AIB2.0I/O单元设计的原理图和布局;为了实现36μm微凸块间距的目标,该I/O单元的布局经过了精心的优化,每个单元都在相应的微凸块下连接,以确保布局符合规定的凸块间距?统一I/O单元支持多种模式?首先,传输方向可以灵✤活设置为TX或RX模式,这不仅有助于进行冗余修复,也便于芯粒间的灵✤活连接!在TX模式下,为了降低功耗,RX组件的时钟被门控?反之,在RX模式下,TX组件的时钟被门控;其次✽,对于AIB1.0和AIB2.0,I/O信号摆幅可设置为全轨,而对于AIB2.0,摆幅还可以降低至0.4V?第三,传输模式可以设置为单数据速`率(SDR)模式或双数据速`率(DDR)模式!在DDR模式下,数据0和数据1被串行化后进行传输,其中数据1比数据0延迟半个时钟周期!这意味着,在TX时钟的正边沿,数据0被发送至驱动器,而在负边沿,数据1被发送;在RX端,这一过程则相反,数据通过并行化恢复?SDR模式仅使用数据0,它在TX时钟的正边沿发送到驱动器?最后,I/O单元可设置为在时钟和其他边带信号的异步模式下运行;图6一个统一AIBI/O单元的原理图和布局图7基于CMOS的TX驱动器(左)和基于strongARM的RX(右)示意图1)TX驱动器:如图7(左)所示,TX驱动器的设计采用了分段技术,由四部分组成;该设计允许♡将最多四段驱动器连接起来❄,以实现可调节的驱动强度,这样就可以根据通道变化灵✤活调整,同时平衡传输速`度和功耗之间的关系?每个驱动器段包括一个用于下拉的NMOS晶体管,以及一个可切换的PMOS或NMOS上拉驱动器,后者可以根据需要提供全轨或低摆幅的驱动力;在低摆幅模式下,NMOS上拉驱动会被适度增强,以确保与下拉驱动力的平衡;此外,系统还允许♡通过设置弱上拉和下拉来❄配置初始开机值?2)RX缓冲器:RX缓冲器的设计区分了全轨输入和低摆输入!对于全轨输入信号,采用了标准单元缓冲器进行处理!而对于低摆输入信号,则使用了再生比较器,如图7(右)所示?该比较器是StrongARM锁存器的优化版本[15],[16],无需校准即可将平均偏移降低到4.1mV?此外,设计中还利用PMOS增强了对低波动输入的检测;该设计采用了一个简单的基准电压发生器;比较器可在2GHzDDR频率下可靠地检测低至0.38V的输入?3)凸块图:图8展示了一个AIB2.0通道的12×17凸块图!该通道由40个TX数据引脚、40个RX数据引脚、2个TX转发时钟引脚、2个RX转发时钟引脚以及18个边带和冗余引脚组成;TX和RX凸块的设计是对称的,使得在EMIB上每对TX-RX的布线长度对等?其总共拥有80个数据引脚,每个引脚的数据速`率为4Gb/s,一个AIB2.0通道提供了总共320Gb/s的带宽;该设计的微凸块间距为36μm,通道岸线宽度为312.08μm,带宽密度达到1024Gb/s/mm!图8一个AIB2.0通道的凸块图图9两级时钟分布C时钟分布对于像AIB这样的高速`并行I/O接口来❄说,必须采用低偏斜时钟分布,以确保给定通道中的所有数据引脚相位正确地对齐!如图9所示,我们在每个AIB通道中采用两级时钟分布?上层是一个均衡的H型树状结构,它覆盖了整个通道;而下层则由一个局部时钟网格构成!这种双层设计有效限制了H树的深度,确保了各分支之间更好的平衡?此外,局部时钟网格还能提供更稳定的时钟汇(clocksinks),且不会显著增加功耗?因此,整个时钟网络能够将最坏的时钟偏斜控制在8ps以内!H树和网状时钟网络都是使用ICCompilerII的多源时钟树综合(MSCTS)流程创建和评估的?IV.DSP集群如图10所示,每个DSP集群包括一个灵✤活的矢量引擎、一个旁路缓冲器、一个用于数据成帧的旋转块、两个用于在多个AIB通道之间打包和解包数据的兼容AXI的总线转换器,以及一个与AXI兼容的系统总线;此外,还包括一个总线枢纽,用于在矢量引擎和测试器、AIB1.0接口或AIB2.0接口之间建立连接?旁路缓冲器支持Arvon的模式2操作,可绕❄过DSP1直接连接FPGA和DSP2?通过这种连接,FPGA的AIB1.0事务可直接转发到DSP2的AIB2.0事务?旋转块反转了AIB接口的通道索引顺序?例如,将DSP1连接到DSP2(DSP1的旋转版本)时,DSP1的通道1-8连接到DSP2的通道24-17,需要DSP2的旋转块来❄颠倒连接顺序;图10DSP集群(上)和矢量引擎(下)A矢量引擎DSP集群的核心部件是矢量引擎,它由四个2-D对称阵列实例组成[17];每个脉动阵列包含256个PE,每个PE以半精度浮点格式(FP16)执行乘法运算;这256个PE被分成八个单元,每个单元包含32个PE;每个32-PE单元的求和结果随后输入到一个可配置的加法器树中;可配置的加法器树可以通过选择将八个单元中的哪些单元求和在一起,从而灵✤活地支持各种工作负载映射!这种设计提供了更短的部分求和累积路径,并通过并发工作负载实现了更高的利用率,这与经典的脉动阵列有所区别;整个矢量引擎总共提供1024个PE,以支持矩阵-矩阵乘法(MMM)和卷积(conv);最后,实现了一个全局I/O缓冲器和调度器,其使用多播或轮询仲裁技术将输入分配给PE阵列!通过指令配置,矢量引擎便于输入流的连续计算?矢量引擎还具有高度的映射灵✤活性;首先,四个脉动阵列可以独立映射?此外,每个阵列内的256个PE可以32个PE为单位进行配置,可适应1到8个独立的工作负载?B系统总线和总线转换器AIB连接由兼容AXI的点对点系统总线抽象出来❄?总线转换器处理跨多个AIB通道的数据打包和解包;它还支持突发模式,以最大限度地利用带宽进行流式传输;系统总线的通道和信号在图11中进行了说明!系统总线由四个通道组成:读命令通道、写命令通道、读数据通道和写数据通道?一个主设备能发出一个带有32位地址和6位突发长度的读写命令,以及512位写数据和写命令;在响应读命令时,从设备将512位读数据发送回主设备?系统总线和AIB通道之间的转换由总线转换器完成;我们在设计总线转换器时采用了基于报头的流方法,以实现高带宽和低延迟!一个矢量引擎最多可使用八个AIB通道,以确保最佳利用率;每个AIB通道可以灵✤活地配置为主设备或从设备,允许♡根据需要调整TX/RX带宽?图11兼容AXI的系统总线:总线转换器(左)以及总线接口通道和信号(右)V.工作负载映射Arvon作为一个多功能的计算平台,它能够支持不同规模的计算任务,并且这些任务的复杂性可以在运行过程中根据需要动态调整;为确保高效的数据处理,必须建立一套系统方法,将工作负载映射到最佳硬件配置和数据布局上?为了实现这一目标,我们开发了一套编译程序,如图12所示!工作负载首先被分割成几个部分,即使用conv核或MMM核的部分,或二者兼有的部分,这些部分可以通过适当的配置直接映射到ArvonDSP上;此外,一些计算核之间的中间步骤可由FPGA主机执行?具体来❄说,conv的配置是基于滤波器和输入的大小(R×S×C)制定的,而MMM的配置是基于矩阵的尺寸制定的;随后,工作负载中的conv和MMM核心将根据既定的指令和内存数据配置,被调度并分配给ArvonDSP的矢量引擎!这一分配过程综合考虑了多个关键因素,包括提高资源利用率、增强数据的可重用性,以及最小化端到端的延迟!图12工作负载映射的编译流程说明矢量引擎采用静态权重方案,其核心的权重分配给PE?为了将MMM映射到矢量引擎[17],权重矩阵的每一行都被分配给PE,从而有效地将一维矢量分配到二维阵列中!具有相同权重矩阵的行可以分配给同一组PE?在涉及多个核的多租户✥场景中,不同权重矩阵的行可以分配给不同的分区,在图12和中用p1–�p8表示;分区输出被定向到可配置加法器树的相应输入端,确保计算出单独的和作为输出?conv的权重映射与多租户✥MMM的情况类似,因为其可能涉及多个卷积核;图展示了两个卷积操作示例的映射?每个卷积核的大小为R×S×C,并通过在二维中编织三维切片将其展开到二维PE阵列中?在滑动卷积窗口下的三维输入激活元素也相应地展开到二维PE数组上!输入激活在PE数组内部保留,以便通过相邻PE之间的脉动数据转发实现水平和/或垂直重用;对于单个卷积核的情况(如图中的第一个示例),可以不考虑分区边界进行映射,从而实现高效利用?然而,当存在多个卷积核时,例如图中的第二个示例,每个卷积核都需要与分区边界对齐,从而降低了利用率;图不同内核大小的映射示例VI.芯片测量与比较DSP芯粒采用22nmFinFET技术制造,面积为32.3mm2,如图14所示;为了构建ArvonSiP,我们将一个14nmFPGA芯粒和两个DSP芯粒通过两个十层EMIB相互封装和互连,同时使用36微米间距的微凸块!AIB1.0侧的平均导线长度为1.5毫米,而AIB2.0侧的平均导线长度为0.85毫米;在室温和0.85V的芯粒电压下,每个DSP集群的最高工作频率为675MHz,功耗为0.76W?在这种配置下,DSP芯粒的峰值性能为4.14TFLOPS,功耗效率达到1.8TFLOPS/W?在0.85VI/O电压和800-MHz时钟(受FPGA时钟频率限制)条件下,AIB1.0I/O的功耗为0.44pJ/b,包括适配器在内为0.85pJ/b,传输延迟为3.75ns!在室温条件下,输入/输出电压为0.4V,时钟频率为2GHz,AIB2.0输入/输出每比特消耗0.10pJ,包括适配器在内为0.46pJ/b,传输延迟为1.5ns?AIB2.0接口的能耗分解如图15所示!适配器的能耗占绝大部分,为0.32pJ/b,约占总能耗的69%!另一方面,I/O单元仅消耗0.10pJ/b,约占总能耗的22%;I/O单元能耗较低的原因是利用了0.4V的低信号摆幅?图14测试装置、Arvon多芯粒封装和DSP芯粒显微照片图15AIB2.0接口的能耗分解图16能效与区域带宽密度(左)和海岸线带宽密度(右)的关系Arvon的AIBI/O接口与最先进的SiPI/O接口的比较见表II?与AIB接口类似,SNR-10[8]、3-D-Plug[10]和LIPINCON[5]也是并行I/O接口?其中,LIPINCON的数据传输率最高,达到8Gb/s/pin,I/O能耗最低,在0.3V信号摆幅下仅为0.073pJ/b;3-D-Plug的带宽密度最高,达到900Gb/s/mm的海岸线?SNR-10的I/O尺寸最小,仅为7μm2!GRS[7]是一种高速`串行I/O接口,可提供25Gb/s/pin,能效为1.17pJ/b;我们的AIB2.0原型提供了一个极具吸引力的解决方案,其I/O能耗仅为0.10pJ/b,如果包括适配器,则为0.46pJ/b!如表II所示,它还实现了1.0-Tb/s/mm的海岸线和1.7-Tb/s/mm2面积的最高带宽密度;图16比较了芯片间接口的能效、面积带宽密度和海岸线带宽密度?与GRS接口相比,AIB2.0接口的能效、面积带宽密度和海岸线带宽密度分别提高了2.5倍、3.4倍和5倍,优于其他接口?我们展示了可以利用Arvon的各种应用的工作负载映射,包括深度神经网络(DNN)、多输入多输出(MIMO)信号处理和图像滤波!工作负载大小、总体吞吐量和利用率在表III中进行了总结?除了常用的DNN模型外,128×16MIMO检测工作负载利用128个接收天线来❄检测16个单天线用户✥;此任务涉及的处理包括最小均方误差(MMSE)滤波操作,该操作需要使用矩阵-矩阵乘法(MMM)计算滤波矩阵,然后使用MMM应用滤波矩阵!为了执行这些操作,需要使用尺寸为32×256、256×32、32×32和32×1的MMM核来❄完成此工作负载?这些计算核可以高效地映射到PE阵列,利用率达到100%?图像滤波工作负载涉及16个5×5的滤波器和16个3×3的滤波器,这些二维滤波器应用于1280×720的图像帧,这些操作均需要采用卷积核来❄进行!不过,由于滤波器尺寸较小,其利用率低于其他工作负载;这些示例工作负载的结果表明,Arvon的异构SiP架构为神经网络(NN)和通信处理提供了灵✤活性、性能和效率!表II表IIIVII.总结Arvon是一个异构系统级封装(SiP),它使用嵌入式多芯片互连桥(EMIBs)集成了一个FPGA芯粒和两个DSP芯粒;这种集成方式使Arvon不但能够拥有FPGA作为主机的灵✤活性,还能拥有DSP的高计算性能和效率?SiP的主要特点是采用并行、短距离的AIB1.0和AIB2.0接口,用于无缝连接芯粒;输入/输出(I/O)单元设计紧凑,以数字为主,并且可综合!这些单元非常灵✤活,能够支持多种模式;此外,它们还采用了依赖模式的电源门控和两级时钟分布,从而提高了能效;我们使用36微米间距微凸块实现了低摆幅4-Gb/sAIB2.0接口,能效为0.10pJ/b,若包括适配器在内则为0.46pJ/b,同时拥有1.024-Tb/s/mm海岸线和1.705-Tb/s/mm2的面积的带宽密度!该接口采用与AXI兼容的总线协议进行抽象,简化了主机和DSP的使用?Arvon中的每个DSP芯粒都采用低延迟的脉动阵列架构,拥有3072个FP16PE;这些PE按层次✽分为三个集群,每个集群包含八个32-PE单元?这种细粒度的组织结构允许♡同时并行执行多个工作负载!每个DSP芯粒可提供4.14TFLOPS的峰值性能,功耗效率为1.8TFLOPS/W;我们开发了一套将工作负载映射到Arvon上的系统程序,并演示了Arvon可以加速`的各种工作负载,以实现具有竞争力的性能和利用率;致谢所表达的观点、意见和/或发现皆属于作者本人,不应被解释为代表国防部或美国政府的官方观点或政策;感谢电子科技大学集成电路科学与工程学院黄乐天老师与陈飞扬同学在翻译和校正中提供的帮助!参考文Q献[1]W.Jiang,B.Han,M.A.Habibi,andH.D.Schotten,“Theroadtowards6G:Aprehensivesurvey,”IEEEOpenJ.Commun.Soc.,vol.2,pp.334–�366,2021.[2]H.Tataria,M.Shafi,A.F.Molisch,M.Dohler,H.Sj?land,andF.Tufvesson,“6Gwirelesssystems:Vision,requirements,challenges,insights,andopportunities,”Proc.IEEE,vol.109,no.7,pp.1166–�1199,Jul.2021.[3]S.Bianco,R.Cadene,L.Celona,andP.Napoletano,“Benchmarkanalysisofrepresentativedeepneuralnetworkarchitectures,”IEEEAccess,vol.6,pp.64270–�64277,2018.[4]G.Menghani,“Efficientdeeplearning:Asurveyonmakingdeeplearningmodelssmaller,faster,andbetter,”2021,arXiv:2106.08962.[5]M.-S.Linetal,“A7-nm4-GHzarm-core-basedCoWoSchipletdesignforhigh-performanceputing,”IEEEJ.Solid-StateCircuits,vol.55,no.4,pp.956–�966,Apr.2020.[6]B.Zimmeretal,“A0.32–�128TOPS,scalablemulti-chip-modulebaseddeepneuralnetworkinferenceacceleratorwithground-referencedsignalingin16nm,”IEEEJ.Solid-StateCircuits,vol.55,no.4,pp.920–�932,Apr.2020.[7]J.W.Poultonetal,“A1.17-pJ/b,25-Gb/s/pinground-referencedsingleendedseriallinkforoff-andon-packagemunicationusingaprocess-andtemperature-adaptivevoltageregulator,”IEEEJ.Solid-StateCircuits,vol.54,no.1,pp.43–�54,Jan.2019.[8]U.Rathore,S.S.Nagi,S.Iyer,andD.Markovic,“A16nm785GMACs/J784-coredigitalsignalprocessorarraywithamultilayerswitchboxinterconnect,assembledasa2×2dieletwith10μm-pitchinter-dieletI/Oforruntimemulti-programreconfiguration,”inProc.IEEEInt.Solid-StateCircuitsConf.(ISSCC),Feb.2022,pp.52–�54.[9]S.S.Nagi,U.Rathore,K.Sahoo,T.Ling,S.S.Iyer,andD.Markovic,“A16-nm784-coredigitalsignalprocessorarray,assembledasa2×2dieletwith10μmpitchinterdieletI/Oforruntimemultiprogramreconfiguration,”IEEEJ.Solid-StateCircuits,vol.58,no.1,pp.111–�123,Jan.2023.[10]P.Vivetetal,“IntAct:A96-coreprocessorwithsixchiplets3D-stackedonanactiveinterposerwithdistributedinterconnectsandintegratedpowermanagement,”IEEEJ.Solid-StateCircuits,vol.56,no.1,pp.79–�97,Jan.2021.[11]W.Tangetal,“Arvon:AheterogeneousSiPintegratinga14nmFPGAandtwo22nm1.8TFLOPS/WDSPswith1.7Tbps/mm2AIB2.0interfacetoprovideversatileworkloadacceleration,”inProc.IEEESymp.VLSITechnol.Circuits,Jun.2023,pp.1–�2.[12]R.Mahajanetal,“Embeddedmulti-dieinterconnectbridge(EMIB)—Ahighdensity,highbandwidthpackaginginterconnect,”inProc.IEEE66thElectron.Compon.Technol.Conf.(ECTC),May2016,pp.557–�565.[]G.Duan,Y.Kanaoka,R.McRee,B.Nie,andR.Manepalli,“DieembeddingchallengesforEMIBadvancedpackagingtechnology,”inProc.IEEE71stElectron.Compon.Technol.Conf.(ECTC),Jun.2021,pp.1–�7.[14]AIBSpecifications.Accessed:Dec.,2023.[Online].Available:://github./chipsalliance/AIB-specification[15]B.Razavi,“TheStrongARMlatch[Acircuitforallseasons],”IEEESolidStateCircuitsMag.,vol.7,no.2,pp.12–�17,Jun.2015.[16]M.Miyahara,Y.Asada,D.Paik,andA.Matsuzawa,“Alow-noiseselfcalibratingdynamicparatorforhigh-speedADCs,”inProc.IEEEAsianSolid-StateCircuitsConf.,Nov.2008,pp.269–�272.[17]S.-G.Cho,W.Tang,C.Liu,andZ.Zhang,“PETRA:A22nm6.97TFLOPS/WAIB-enabledconfigurablematrixandconvolutionacceleratorintegratedwithanIntelStratix10FPGA,”inProc.Symp.VLSICircuits,Jun.2021,pp.1–�2.[18]IntelStratix10TX2800Specification.[Online].Available:://.intel./content//us/en/products/sku/210283/intel-stratix10-tx-2800-fpga/specifications.点这里加关注,锁定更多原创内容*免责声♡明:本文Q由作者原创;文Q章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎半导体行业观察?今天是《半导体行业观察》为您分享的第3806期内容,欢迎关注;『半导体第一垂直媒体』实时专业原创深度公众号ID:icbank喜欢我们的内容就点“在看”分享给小伙伴哦!一秒“吃”进10公斤“大喂王”成小麦机收主角今年全国大规模小麦机收于5月下旬全面展开,截至昨天(6月18日),机收任务基本完成;今年夏收呈现出机具充足、机收进度快、服务保障强、机收损失低的四大特点;今年三夏期间,各地共计投入联合收割机60多万台,麦收高峰期有9天单日投入联合收割机在20万台以上、最多达25万台,小麦机收占比超过98%?农业农村部农业机械化管理司司长冀名峰:今年夏收工作总体进展顺利,更多高效低损收割机投入生产一线,每秒9公斤、10公斤大喂入量联合收割机已经成为跨区作业主流机型;今年小麦机收进度加快!全国连续16天,日机收面积维持在1000万亩以上,机收进度同比常年快2到3天,黄淮海重点省份集中机收结束时间均比常年快5天左右!今年夏收,小麦主产区服务保障能力增强!各地共设立高速`公路绿色通道2970多条、跨区作业接待服务站近3500个,有力保障了农机跨区通行顺畅?一秒穿越冬夏哈尔滨“冰雪✈小世界”开馆7月6日,游客在哈尔滨冰雪✈大世界室内冰雪✈馆内游玩?近日,哈尔滨冰雪✈大世界四季冰雪✈项目全面投入运营;该项目重要场馆之一——室内冰雪✈馆(“冰雪✈小世界”)是一座沉浸式冰雪✈光影互动体验馆,建筑面积2.38万平方米,建设9大主题分区和个体验项目,涵盖冰雪✈、光影、娱乐、互动等多重要素,运用声♡光电效果,让广大游客在炎炎夏日开启“一秒穿越冬夏”的奇妙之旅;记者谢剑飞摄7月6日,一名小朋友在哈尔滨冰雪✈大世界室内冰雪✈馆内游玩?记者张涛摄7月6日,游客在哈尔滨冰雪✈大世界室内冰雪✈馆内游玩;记者谢剑飞摄7月6日,游客在哈尔滨冰雪✈大世界室内冰雪✈馆内游玩;记者张涛摄7月6日,游客在哈尔滨冰雪✈大世界室内冰雪✈馆内拍照留念!记者张涛摄7月6日,市民游客在哈尔滨冰雪✈大世界园区内观看表演?记者谢剑飞摄7月6日,在哈尔滨冰雪✈大世界园区内,市民游客在进入室内冰雪✈馆前领取防寒衣物?记者谢剑飞摄!一窗受理、服务集成,日照市东港区行政审批服务局推出“楼宇命名一件事”为进一步优化营商环境,深化工程建设项目审批制度改革,日照市东港区行政审批服务局全面落实“高效办成一件事”,不断探索一件事服务场景,整合推出“楼宇命名一件事”,助力审批服务再升级!近日,山东众工钢制品科技有限公司前来❄办理建设项目立项,东港区行政审批服务局工作人员了解到该项目符合“楼宇命名一件事”的申报条件,立即启动提前预审服务,联合区民政局、区自然资源和规划分局等单位,安排项目管家服务专员对建设单位进行指导,梳理材料清单、审核材料内容,跟进审批过程,“一窗受理”窗口在核发《建设工程规划许♡可证》时,核发楼宇命名相关审批文Q件,实现了“全程闭环,无缝衔接”的审批模式?“楼宇命名一件事”改革将住房和城乡建设、民政、行政审批、公安、自然资源和规划等5个部门负责的建设工程规划许♡可、地名核准、门牌编制等3个相关联的“单项事”整合为“一件事”,审批时限由8个工作日压减为4个工作日,材料清单由22项压减至5项;实现“一个窗口受理、一张申请表单、一套申报材料、一个审批文Q书”,实现“一件事一次✽办”,进一步提高企业和群众办事的体验感和获得感;下一步,东港区行政审批服务局将继续以更好更快更方便企业群众办事为动力,以提高工程建设项目审批效能为目标,持续优化行政审批流程、提升政务服务质效,赋能东港区经济社会高质量发展?

    K8凯发K8凯发支持