面向飛騰處理器平臺的快速卷積算法優(yōu)化
摘要:為解決卷積神經(jīng)網(wǎng)絡(luò)難以在計算資源受限設(shè)備上部署的問題,面向國產(chǎn)FT-2000/4 多核處理器提出一種高性能的快速卷積算法FastInfer。采用分塊策略優(yōu)化通用矩陣乘法,將處理器訪問頻率高的數(shù)據(jù)存入更靠近處理器的緩存中,從而提高計算過程中的訪存效率。配合分塊方案設(shè)計實現(xiàn)高性能的矩陣乘法微內(nèi)核,使用向量外積運算更新數(shù)據(jù),提高計算訪存比,實現(xiàn)最大程度掩蓋訪存指令的延遲。(剩余1783字)
-
-
- 上海理工大學(xué)學(xué)報
- 2024年06期
目錄
- 融合多尺度特征表示和注意力機制...
- 算力網(wǎng)絡(luò)研究進展:架構(gòu)、關(guān)鍵技...
- 面向飛騰處理器平臺的快速卷積算...
- 燃料電池氫氣循環(huán)系統(tǒng)噴射器設(shè)計...
- 電動汽車大功率直流充電熱管理系...
- 固體推進劑低溫點火結(jié)構(gòu)完整性數(shù)...
- 基于SP-DDN 的沖壓件表面...
- 顆粒分選斑圖的階梯式轉(zhuǎn)變研究...
- 超粘抗剪乳化瀝青稀漿混合料穩(wěn)定...
- 多域染色風(fēng)格轉(zhuǎn)換及其在腎小球檢...
- 多階分數(shù)階時滯微分方程的譜延遲...
- 空間解析單細胞轉(zhuǎn)錄組的優(yōu)化算法...
- 資源約束下基于改進傳統(tǒng)SEIR...