當(dāng)前位置：首頁 > 新聞資訊 > 人工智能 > 大模型的異構(gòu)計算和加速:加速方法,包括XPU異構(gòu)計算,多個模型的精度,推理算法優(yōu)化

大模型的異構(gòu)計算和加速:加速方法,包括XPU異構(gòu)計算,多個模型的精度,推理算法優(yōu)化

來源：戴金權(quán) 編輯：創(chuàng)澤時間：2024/11/29 主題：其他 [加盟]

《大模型專題：大模型的異構(gòu)計算和加速》由英特爾院士戴金權(quán)在AiCon全球人工智能開發(fā)與應(yīng)用大會上的演講內(nèi)容整理而成。報告介紹了大語言模型的異構(gòu)計算和加速相關(guān)技術(shù)。首先闡述大語言模型基于Transformer解碼器架構(gòu)的自回歸模型原理。接著分析大模型推理和訓(xùn)練面臨的瓶頸，包括內(nèi)存帶寬、計算、顯存大小和分布式計算等方面。

報告重點(diǎn)介紹了大模型的異構(gòu)計算和加速方法。包括XPU異構(gòu)計算，涉及CPU、GPU、NPU等硬件加速；低比特計算，如模型量化/壓縮、數(shù)據(jù)類型選擇、低比特算子應(yīng)用以及對顯存使用量和訓(xùn)練微調(diào)的影響，并對比了不同量化方式下多個模型的精度；還介紹了推理算法優(yōu)化，涵蓋Self - speculative decoding、KV Cache compression等多種方式。

此外，報告還介紹了IPEX - LLM開源大模型XPU加速框架及其應(yīng)用場景，如在Intel Core Ultra AI PC、Intel Arc A770 GPU等不同硬件上的加速體驗，包括Office助手、工業(yè)機(jī)器人代碼生成、AI座艙 - 汽車助理等多個應(yīng)用案例展示了英特爾XPU在大模型應(yīng)用創(chuàng)新方面的成果，并鼓勵關(guān)注和試用IPEX - LLM，在Intel XPU平臺開發(fā)大模型及其應(yīng)用。

附件：大模型的異構(gòu)計算和加速:加速方法,包括XPU異構(gòu)計算,多個模型的精度,推理算法優(yōu)化