騰訊發布並開源混元-A13B模型:極端條件僅1張中低端GPU卡即可部署

神马作文网 教育资讯 1

快科技6月27日消息,騰訊今天正式發布並開源了混元-A13B模型,這是一款基於專家混合(MoE)架構的大模型,總參數800億、激活參數130億。

在效果比肩頂尖開源模型的同時,大幅降低推理延遲與計算開銷,甚至極端條件下僅需1張中低端GPU卡即可部署。

用戶可以在Github、HuggingFace等技術社區下載使用,模型API已在騰訊雲官網上線。

在數學推理方面,「9.11和9.9誰大」的死亡問題能準確完成小數比較,並展現分步解析能力。

對於時下熱門的智能體(Agent)應用,模型可調用工具,高效生成出行攻略、數據文件分析等複雜指令響應。

在多個公開數據測試集上,混元-A13B在數學、科學和邏輯推理任務上表現出領先效果。

混元-A13B模型通過MoE架構,為每個輸入選擇性地激活相關模型組件,不僅與同等規模的密集模型相比又快又省,而且為個人開發者和中小企業提供了一個可擴展且高效的替代方案。

預訓練中,模型用了20萬億高質量網絡詞元語料庫,提升了模型推理能力的上限;完善了MoE架構的Scaling Law(即規模定律)理論體系,為MoE架構設計提供了可量化的工程化指導,提升了模型預訓練效果。

優化了計算資源分配,兼顧效率和準確性,用戶可以按需選擇思考模式,快思考模式提供簡潔、高效的輸出,適合追求速度和最小計算開銷的簡單任務;慢思考模式涉及更深、更全面的推理步驟。


抱歉,评论功能暂时关闭!