
“人類(lèi)基因組計劃”已于2003年完成測序,我們得到了生命的“天書(shū)”,卻仍面臨解讀的困境。10月23日,第二十屆國際基因組學(xué)大會(huì )上,華大生命科學(xué)研究院與之江實(shí)驗室聯(lián)合發(fā)布全球首個(gè)百億參數可部署的基因組通用基礎模型Genos,為破譯這本“天書(shū)”提供了新鑰匙。
與國內外同類(lèi)模型相比,Genos的優(yōu)勢體現在解讀能力與落地能力的雙重提升上。
解讀能力提升主要源于訓練數據的擴容?,F有模型多依賴(lài)1個(gè)至2個(gè)參考基因組,難以體現人類(lèi)遺傳資源的多樣性。而Genos整合了人類(lèi)泛基因組參考聯(lián)盟(HPRC)、人類(lèi)基因組結構變異圖譜計劃(HGSVC)等多個(gè)權威公開(kāi)資源,首次將全球范圍內636個(gè)“端粒到端?!奔墑e的高質(zhì)量人類(lèi)基因組作為訓練數據。這些數據覆蓋了全球不同人群,有助于更全面理解人類(lèi)遺傳多樣性,從源頭提升了AI解讀的質(zhì)量。
落地能力提升則源于算法架構的設計。Genos通過(guò)“混合專(zhuān)家”架構,精準調度相關(guān)“專(zhuān)家”算法協(xié)同處理,在匯總百億級龐大參數時(shí)成功降低推理成本和資源消耗,解決了大模型“好用難部署”的痛點(diǎn)。此外,Genos還是個(gè)開(kāi)源模型,已在HuggingFace、魔搭等平臺全面開(kāi)源開(kāi)放,提供12億和100億參數兩個(gè)版本,滿(mǎn)足不同需求。
臨床測試結果也印證了Genos的真實(shí)能力:Genos在直接面向臨床應用的致病性突變解讀任務(wù)中,準確率達92%;結合科學(xué)基礎模型后,準確率高達98.3%。多項綜合評測結果顯示,Genos超越現有最佳水平模型。
人類(lèi)基因組由大約30億對堿基組成。對這種大規模數據的解讀分析,是AI大模型的拿手好戲。AI大模型可以重塑基因組研究與臨床應用的節奏,助力科研、臨床與產(chǎn)業(yè)的三重躍遷,發(fā)展前景廣闊。
科研側,AI讓“大海撈針”成為“精準導航”,可以大幅度壓縮尋找致病位點(diǎn)的周期,為罕見(jiàn)病、復雜病機制研究導航。
臨床側,AI讓基因報告從“天書(shū)”變成“說(shuō)明書(shū)”,可以自動(dòng)生成患者能理解的文本,輔助醫生完成快速、合規的臨床級解讀。
產(chǎn)業(yè)側,AI讓“試錯式”研發(fā)轉向“設計式”創(chuàng )新,可以大幅度降低實(shí)驗迭代次數,為新藥研發(fā)節約成本。
展望未來(lái),人類(lèi)基因組AI大模型的進(jìn)一步發(fā)展還面臨三重挑戰。一是應持續擴充訓練數據庫,納入更多疾病樣本與遺傳數據,提升復雜疾病解讀能力。二是需建立更完善的倫理與安全規范,明確模型解讀結果的臨床邊界,避免過(guò)度解讀風(fēng)險和隱私泄露風(fēng)險。三是應加強跨學(xué)科協(xié)同,推動(dòng)AI與臨床數據系統、生物實(shí)驗平臺的深度融合,通過(guò)“AI預測+實(shí)驗驗證”的反饋迭代,持續優(yōu)化模型性能。
讓AI模型讀懂生命之書(shū),將加速精準醫療時(shí)代的到來(lái),筑牢健康保障的防線(xiàn)。Genos的發(fā)布只是序章,未來(lái)誰(shuí)能率先把人類(lèi)基因組“讀、思、寫(xiě)、用”四步閉環(huán)跑通,誰(shuí)就能打開(kāi)生命經(jīng)濟的下一扇大門(mén)。這需要大家的共同努力。只有學(xué)界、產(chǎn)業(yè)界、政策制定者和社會(huì )公眾共同執筆,才能寫(xiě)出更普惠、更健康、更文明的未來(lái)篇章。(本文來(lái)源:經(jīng)濟日報 作者:佘惠敏)