華為今日正式宣布開(kāi)源盤古70億參數(shù)的稠密模型、盤古Pro MoE 720億參數(shù)的混合專家模型和基于昇騰的模型推理技術(shù)。
華為表示:“此舉是華為踐行昇騰生態(tài)戰(zhàn)略的又一關(guān)鍵舉措,推動(dòng)大模型技術(shù)的研究與創(chuàng)新發(fā)展,加速推進(jìn)人工智能在千行百業(yè)的應(yīng)用與價(jià)值創(chuàng)造。”
根據(jù)華為官網(wǎng)顯示:
盤古Pro MoE 72B模型權(quán)重、基礎(chǔ)推理代碼,已正式上線開(kāi)源平臺(tái)。
基于昇騰的超大規(guī)模MoE模型推理代碼,已正式上線開(kāi)源平臺(tái)。
盤古7B相關(guān)模型權(quán)重與推理代碼將于近期上線開(kāi)源平臺(tái)。
據(jù)悉,基于MoGE架構(gòu)構(gòu)建的盤古Pro MoE大模型(72B總參數(shù)、16B激活參數(shù))在昇騰300I Duo和800I A2可實(shí)現(xiàn)更優(yōu)的專家負(fù)載分布與計(jì)算效率(321 tokens/s和1528 tokens/s)。
而在模型能力方面,盤古Pro MoE在最新一期業(yè)界權(quán)威大模型榜單SuperCLUE上交出了超能打的成績(jī)。
和其他動(dòng)輒千億以上的大模型相比,如DeepSeek-R1具有671B參數(shù),盤古Pro MoE以72B總參數(shù)量達(dá)到了59分,千億參數(shù)量以內(nèi)大模型排行并列國(guó)內(nèi)第一。
并且,16B激活參數(shù)量可以媲美其他廠商更大規(guī)模的模型。