科研動态
首頁  -  科學研究  -  科研動态  -  正文
6774澳门永利缪向水/李祎團隊于國際電子器件會議(IEDM 2024)發表浮點精度存算一體系統最新研究成果

來源: 時間:2024-12-18 點擊量:

背景導讀:國際電子器件會議IEDM (International Electronic Device Meeting),是全球最具影響力的半導體器件領域學術會議,議題涉及半導體材料與器件、器件制造工藝、集成電路技術與應用等領域。該會議每年都會吸引世界各地的專家學者和産業界代表參加,成為了半導體領域交流與合作的重要平台。


6774澳门永利缪向水、李祎團隊,在近日于美國舊金山召開的第70IEDM會議上報告了存算一體技術最新研究成果“Demonstration of a Floating-point Deep Neural Matrix Equation Solver using 3D Vertical ReRAM with High Energy- and Area-Efficiency”。該工作實現了國際上首個基于三維集成阻變存儲器陣列的浮點精度存算一體系統,為實現高能效、高精度的AI-for-Science計算應用提供了重要方案。2019級博士生李健聰(已畢業入站從事博士後研究)和2020級博士生任升廣為論文共同第一作者,李祎教授、何毓輝教授和缪向水教授為論文共同通訊作者。6774澳门永利是論文唯一完成單位。


求解矩陣方程Ax=b是科學計算和具身智能等領域的基礎數學問題,核心在于對方程系數矩陣A進行求逆運算。近年來,AI-for-Science相關研究表明神經網絡方法能夠突破傳統矩陣分解方法在時間複雜度上的瓶頸,實現高效的矩陣求逆計算。但是,傳統馮·諾依曼架構的計算機系統在神經網絡的訓練和推理過程中,面臨算力不足和硬件資源消耗過大的挑戰(圖1)。基于阻變存儲器的存算一體技術被視為高效加速神經網絡計算的潛力方案。然而,求解矩陣方程通常需要浮點計算以滿足精度需求,而憶阻器陣列的擦寫開銷及低精度模拟計算機制成為制約存算一體技術實現浮點神經網絡訓推性能的關鍵瓶頸。此外,如何突破當前平面集成陣列的算力與能效極限是另一重要難題。

1. 研究思路:基于神經網絡逆運算的矩陣方程求解器

針對上述問題,團隊構建了一套基于三維垂直堆疊的阻變存儲器陣列(3D-V ReRAM)的存算一體神經網絡訓推軟硬件系統,可以高效執行系數矩陣A的浮點精度逆運算及方程的浮點精度求解,并取得了以下進展:

在三維集成層面,設計并制備了4 Kb規模、4層堆疊的高一緻性高可靠性3D-V ReRAM陣列。陣列在操作功耗(16.4 fJ)、擦寫延時 (100 ns) 、單片可擴展性(>493 Mb)和多值編程特性(2-bit)等多方面指标均達到了國際先進水平,為實現高能效存算一體系統提供了硬件基礎(圖2)。

2.  4 Kb 三維集成阻變存儲器陣列

在計算架構及電路層面,針對網絡高精度低開銷訓推這一關鍵挑戰,提出了阻變器件本征随機性驅動的混合精度訓練架構,實現了神經網絡求解器的高效求逆。同時,為支持方程的高精度求解,将3D-V ReRAM陣列與任意精度存算一體技術(Arbitrary-Precision Computing-in-Memory, ArPCIM)結合,構建了支持原位單精度浮點計算的存算一體單元,突破了低精度器件實現浮點精度計算的難題(圖3)。

3. 神經網絡求解器的混合精度訓練框架及原位浮點計算架構

所構建的存算一體原型系統實驗演示了陣列中的原位FP32精度矩陣乘法計算,一維對流擴散方程的高精度求解計算誤差低于10-13,相當于雙精度浮點求解系統。性能評估結果表明,在22 nm節點工藝下,上述系統預期可實現11.5 TFLOPS/W FP32精度計算能效和大于0.63 TFLOPS/mm2的單位面積算力,相對當前最先進的NIVIDA H100 GPU可實現132倍的能效提升和7.6倍的面積效率提升(圖4)。

4 存算一體系統及浮點計算任務評估

本論文是繼憶阻稀疏矩陣方程求解器(Sci. Adv. 2023)、快速欠定矩陣方程求解器(IEDM 2023)、任意精度存算一體加速器(IEEE TCASI 2024)之後,團隊在存算一體技術方向取得的又一重要突破。上述研究工作得到了國家科技創新2030重大研究計劃、國家重點研發計劃、6774澳门永利基礎研究支持計劃等項目的資助,以及國家集成電路産教融合創新平台、先進存儲器湖北省重點實驗室等平台的支持。


相關論文:

[1] J. C. Li et al., Demonstration of a Floating-point Deep Neural Matrix Equation Solver using 3D Vertical ReRAM with High Energy- and Area-Efficiency, 2024 International Electron Devices Meeting (IEDM), San Francisco, CA, December 7-11, 2024.

[2] J. C. Li et al., Sparse matrix multiplication in a record-low power self-rectifying memristor array for scientific computing, Science Advances, 9, eadf7474, 2023.

[3] Z. Chen, et al., An Ultrafast (< 200 ns) Sparse Solution Solver made by HfWOx/VOy Threshold Tunable Neurons, 2023 International Electron Devices Meeting (IEDM), San Francisco, CA, December 9-13, 2023.

[4] Z. Z. Zhou et al., ArPCIM: An Arbitrary-Precision Analog Computing-in-Memory Accelerator With Unified INT/FP Arithmetic, IEEE Transactions on Circuits and Systems I: Regular Papers, 2024. DOI: 10.1109/TCSI.2024.3491825.


聯系我們

地址:湖北省武漢市珞喻路1037号 6774澳门永利光電信息大樓A323

電話:027-87542594

院長信箱:IC_DI@hust.edu.cn

Copyright © 版權所有  6774永利(澳门)有限公司-Baidu百科
Baidu
sogou