11月28日消息,據媒體報道,人工智慧領域頂級會議NeurIPS 2025公布了論文獎,阿里通義千問團隊最新研究成果從全球2萬多篇投稿論文中脫穎而出,被評為最佳論文,是唯一獲得該獎項的中國團隊。
該論文聚焦於大模型的核心組件——注意力機制,首次在業內系統性地解密了「注意力門控機制」對模型性能與訓練效率的關鍵影響。
這一突破性發現被業內人士廣泛認為是解決當前大模型訓練瓶頸的重要一步,將有力推動整個AI大模型技術的進步。
作為人工智慧領域的頂尖盛會,NeurIPS曾孕育出Transformer、AlexNet等里程碑式成果。本屆會議吸引了谷歌、微軟、OpenAI、阿里巴巴及麻省理工學院等全球頂尖機構參與,投稿競爭異常激烈,接收率僅約25%,而最終評選出的最佳論文更是鳳毛麟角,僅4篇入選,機率不足萬分之二,代表了當前全球人工智慧領域最具價值和影響力的前沿研究。
門控機制常被喻為模型的「智能閥門」,其核心作用是幫助模型高效過濾冗餘信息,從而提升模型表現。近年來,從AlphaFold2到Forgetting Transformer,學術界和工業界已開始探索將門控機制融入注意力模型。然而,門控在注意力中發揮效用的深層原理及其在大規模訓練中的實踐效果,始終是未解之謎,缺乏系統性的實證研究。
此次,通義千問研究團隊通過嚴謹的大規模實驗填補了這一空白。他們在1.7B稠密模型(Dense)與15B混合專家模型(MoE)上進行了數十組實驗,單組實驗的訓練數據量最高超過3.5萬億tokens。
通義千問團隊表示,對門控注意力機制的深入理解,不僅為未來大語言模型的架構設計開闢了新思路,也為構建更穩定、高效和可控的大模型奠定了堅實的理論基礎。
目前,阿里通義千問已開源超過300款模型,覆蓋全模態、全尺寸,全球累計下載量突破7億次,衍生模型數量超過18萬個,其開源生態的規模和影響力位居全球首位。