浙大推出「女媧」AI模型!破解基因組密碼 全球領先

神马作文网 教育资讯 49

快科技7月9日消息,浙江大學郭國驥教授團隊在《細胞》雜誌發表重要成果。

他們開發多任務深度學習模型女媧CE(NvwaCE),實現從基因組序列到單細胞水平調控序列圖譜的直接預測,在基因組AI領域取得重大突破。

基因組由DNA構成,包含編碼蛋白質的序列及大量調控序列,二者共同決定生物體的複雜特徵。自2003年人類基因組計劃繪製出基因圖譜後,對其中遺傳信息的破譯卻不足10%。

AI的出現為解讀基因序列提供了新途徑,但基因組AI模型受數據質量制約。

郭國驥團隊基於自主研發的超高通量超靈敏單核ATAC測序技術(UUATAC-seq),為基因組AI模型訓練打造了高質量「教材」。

通過學習UUATAC-seq產生的高質量數據,該模型掌握了脊椎動物調控序列編碼規則,可基於一維DNA序列預測單細胞中的染色質可及性水平,且具備高泛化能力,能預測未經訓練物種的染色質可及性圖譜,其對人類調控元件可及性的預測與實驗測量相關性良好。

在實際應用中,「女媧CE」表現出色,超越現有基因組AI模型,可精準預測合成突變對譜系特異性調控序列功能的影響,還能結合疾病表型設計治療位點。

團隊通過基因編輯實驗,驗證了「女媧CE」預測的鐮刀型貧血症治療性基因位點HBG1-68:A>G,經基因治療後胎兒血紅蛋白表達量顯著提升,這是世界首例由人工智慧設計的人類疾病治療位點。

相比國外同類模型,「女媧CE」基於高質量單細胞圖譜數據,對幾乎所有細胞類型實現了AUROC>0.90的預測準確率。

未來,「女媧CE」將在生命科學、醫學和農學等領域發揮重要作用,助力全面解讀基因組語言、建立數字生命模型。


抱歉,评论功能暂时关闭!