你的位置:首頁 > EMC安規(guī) > 正文

筑基AI4S:摩爾線程全功能GPU加速中國生命科學(xué)自主生態(tài)

發(fā)布時間:2026-04-21 來源:轉(zhuǎn)載 責(zé)任編輯:lily

【導(dǎo)讀】精準醫(yī)療與藥物研發(fā)正被人工智能深刻重塑。作為AI for Science(AI4S)領(lǐng)域的核心陣地,解碼生命奧秘的關(guān)鍵已從實驗觀測轉(zhuǎn)向算力與算法的協(xié)同突破。蛋白質(zhì)結(jié)構(gòu)預(yù)測、基因組分析與醫(yī)學(xué)影像,構(gòu)成了生命科學(xué)AI的三類關(guān)鍵技術(shù),其能力直接決定了新藥研發(fā)的效率與精準醫(yī)療的進程。


然而,作為這三類關(guān)鍵技術(shù)之一的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型AlphaFold 3,其訓(xùn)練代碼未完全開放,商業(yè)使用亦受限,這使得科學(xué)家難以基于該模型構(gòu)建真正自主可控的研發(fā)環(huán)境。這種技術(shù)依賴還面臨更深層的合規(guī)挑戰(zhàn):蛋白質(zhì)結(jié)構(gòu)預(yù)測與基因組分析涉及大量人類遺傳數(shù)據(jù),相關(guān)法規(guī)對數(shù)據(jù)的跨境流動有明確規(guī)范。因此,構(gòu)建從模型到算力的全鏈路自主能力,不僅是科研效率的保障,更是合規(guī)與安全的必然要求。


在技術(shù)工具層面,這一困境迎來了破局。2026年,字節(jié)跳動發(fā)布Protenix-v1,在Apache 2.0協(xié)議下完整開源代碼及模型參數(shù),業(yè)界稱之為首個在同等條件下“性能表現(xiàn)達到甚至超越AlphaFold 3的全開源模型”。至此,生命科學(xué)領(lǐng)域迎來了自主可控、可訓(xùn)練、可定制的開源基礎(chǔ)模型。


工欲善其事,必先利其器。模型開放只是起點,能否在國產(chǎn)算力上跑通訓(xùn)練、推理、精度驗證和開發(fā)環(huán)境,決定了這些模型能否真正進入科研與產(chǎn)業(yè)工作流。摩爾線程旗艦級訓(xùn)推一體全功能智算卡MTT S5000,基于自主MUSA軟件棧,已完成對蛋白質(zhì)結(jié)構(gòu)預(yù)測模型Protenix、基因組基礎(chǔ)模型Evo 2的完整驗證。實測顯示,在生命科學(xué)AI核心工作負載中,MTT S5000實現(xiàn)了性能對標:在蛋白質(zhì)結(jié)構(gòu)預(yù)測訓(xùn)練任務(wù)中,其單卡性能達到國際主流GPU的115%以上;在基因組大模型推理與訓(xùn)練任務(wù)中,精度與國際主流GPU持平。此外,摩爾線程已開源MUSA加速版MONAI 1.5.0,為AI醫(yī)學(xué)影像這一關(guān)鍵環(huán)節(jié)提供國產(chǎn)算力支持,進一步增強了AI4S工具環(huán)的可控性。


生物醫(yī)藥研發(fā)對算力的依賴日益加深,而算力供應(yīng)鏈的安全性直接影響科研與產(chǎn)業(yè)的穩(wěn)定性。摩爾線程全功能GPU能夠完整承載生命科學(xué)AI前沿模型的生產(chǎn)級負載,為國內(nèi)科研機構(gòu)、藥企及醫(yī)療機構(gòu)提供了自主可控的高性能計算基座,降低了對單一算力路徑的依賴。


這是中國AI醫(yī)藥研發(fā)領(lǐng)域的一個里程碑事件:從可控模型到自主算力,從結(jié)構(gòu)預(yù)測到醫(yī)學(xué)影像,一個完整、開放、可控的AI醫(yī)藥研發(fā)底座正在形成。


生命的數(shù)字鏡像

人類生命體由約30億個堿基對編碼而成。若將人體比作一臺精密運行的計算系統(tǒng),感冒發(fā)燒如同臨時進程異常,免疫機制可自動修復(fù)。然而,癌癥、漸凍癥等重大疾病的根源,是寫入基因組深處的代碼錯誤:抑癌基因被篡改,導(dǎo)致細胞增殖失控;運動神經(jīng)元代碼發(fā)生亂碼,指令無法傳達。這些內(nèi)源性錯誤無法通過常規(guī)手段修復(fù),需要從分子層面被靶向。


理解這些疾病,需回歸生物學(xué)的中心法則:DNA轉(zhuǎn)錄為RNA,再翻譯為蛋白質(zhì)。蛋白質(zhì)從氨基酸序列折疊為三維空間構(gòu)象,多條肽鏈可組裝為功能復(fù)合體(如血紅蛋白)。核心共識貫穿始終:序列決定結(jié)構(gòu),結(jié)構(gòu)決定功能。


20260417052459782.png

圖1:基于AI生命科學(xué)技術(shù)的腫瘤精準診療與新療法研發(fā)協(xié)同框架


正是基于這一邏輯鏈條,AI驅(qū)動的精準治療解決方案得以構(gòu)建。當(dāng)前,基于生命科學(xué)AI的癌癥精準治療已形成完整的技術(shù)閉環(huán):

1. 基于MONAI等框架的AI影像學(xué)實現(xiàn)早篩與監(jiān)測;


2. 基因組大模型(如Evo 2)解讀突變功能;


3. 結(jié)構(gòu)預(yù)測模型(如AlphaFold / Protenix)揭示蛋白結(jié)構(gòu)變化;


4. 在此基礎(chǔ)上設(shè)計靶向藥物或降解劑;


5. 最終通過臨床驗證與數(shù)據(jù)回饋,持續(xù)優(yōu)化模型。


這一技術(shù)路徑的實現(xiàn),高度依賴于蛋白質(zhì)結(jié)構(gòu)預(yù)測、基因組分析與醫(yī)學(xué)影像這三類關(guān)鍵工具。


生命科學(xué)AI的工具箱


Protenix:蛋白質(zhì)結(jié)構(gòu)預(yù)測的開源破局


蛋白質(zhì)結(jié)構(gòu)決定功能。精確預(yù)測蛋白質(zhì)三維結(jié)構(gòu),是理解疾病機制、設(shè)計靶向藥物的關(guān)鍵。


2018年以來,DeepMind的AlphaFold系列不斷刷新結(jié)構(gòu)預(yù)測的精度邊界。2024年發(fā)布的AlphaFold 3可同時預(yù)測蛋白質(zhì)、DNA、RNA及小分子配體等復(fù)合物結(jié)構(gòu)。然而,該模型的訓(xùn)練代碼未完全開放,商業(yè)使用亦受限,全球科研機構(gòu)難以基于其進行定制化開發(fā)。


Protenix的出現(xiàn)填補了這一空白。2025年5月,字節(jié)跳動發(fā)布生物分子結(jié)構(gòu)預(yù)測模型Protenix-v0.5.0,成為開源社區(qū)中追平甚至挑戰(zhàn)AlphaFold 3水平的重要力量。2026年2月,字節(jié)跳動正式發(fā)布Protenix-v1,在Apache 2.0協(xié)議下完整開源代碼及模型參數(shù)。據(jù)媒體報道,Protenix是首個在相同訓(xùn)練數(shù)據(jù)與推理預(yù)算下,性能達到甚至超越AlphaFold 3的全開源模型,模型采用Transformer+Diffusion架構(gòu),可精準處理蛋白質(zhì)、DNA/RNA及小分子配體。開發(fā)者可基于Protenix在自有數(shù)據(jù)集上進行微調(diào)與訓(xùn)練,為特定研究任務(wù)提供了靈活的技術(shù)路徑。


Evo 2:從“閱讀”到“寫作”基因組


Protenix解決了“序列→結(jié)構(gòu)”的映射問題,但更深層的源頭問題仍然存在:基因如何決定蛋白質(zhì)序列?為什么某些基因更易突變導(dǎo)致疾???修改基因會產(chǎn)生什么后果?


人類基因組總長約30億堿基對,其中編碼蛋白質(zhì)的基因僅占1%-2%,大部分為非編碼區(qū)。非編碼區(qū)承載了人與人之間90%以上的遺傳差異,其功能機制尚未被完全闡明。糖尿病、精神分裂癥等復(fù)雜疾病涉及多個微效基因的疊加效應(yīng)——這需要更強大的基因組建模能力。


20260417052459380.png

圖2:Evo 2和Evo 1的模型框架


Evo 2由美國Arc研究所等機構(gòu)共同開發(fā),于2026年3月發(fā)表于《自然》期刊。作為面向生命科學(xué)領(lǐng)域的基因組基礎(chǔ)模型,Evo 2借鑒了大語言模型的理念,在超過12.8萬個物種、9.3萬億個核苷酸(OpenGenome 2數(shù)據(jù)集)上完成訓(xùn)練,覆蓋細菌、古菌、真核生物三大生命域。其訓(xùn)練數(shù)據(jù)量是前代Evo 1的30倍,模型采用StripedHyena 2架構(gòu),可一次性處理長達100萬個堿基對的序列,訓(xùn)練效率達傳統(tǒng)Transformer的三倍。Evo 2提供70億和400億參數(shù)兩個版本,其中400億參數(shù)版本是當(dāng)前最大的開源生物學(xué)AI模型。


Evo 2的核心能力主要體現(xiàn)在兩個維度:

精準預(yù)測:可零樣本評估編碼區(qū)和非編碼區(qū)基因突變的影響。在區(qū)分乳腺癌相關(guān)基因BRCA1的有害突變與良性突變時,預(yù)測準確率超過90%,為臨床解讀“意義未明變異”提供了重要工具;


生成設(shè)計:從“閱讀”基因組進化到“寫作”基因組。成功案例包括設(shè)計模擬生殖支原體的簡化基因組、人類線粒體基因組、酵母染色體片段,以及設(shè)計并合成功能性噬菌體——部分設(shè)計序列在導(dǎo)入大腸桿菌后產(chǎn)生了具有殺菌活性的病毒顆粒,為應(yīng)對抗生素耐藥性提供了新思路


MONAI:醫(yī)學(xué)影像的“事實標準”

在AI醫(yī)學(xué)影像領(lǐng)域,算法正從基礎(chǔ)的2D圖像篩查,邁向復(fù)雜的3D器官分割與生成式內(nèi)容創(chuàng)建。作為該領(lǐng)域公認的“事實標準”,基于PyTorch構(gòu)建的開源框架MONAI(Medical Open Network for AI),已成為連接前沿學(xué)術(shù)研究與臨床落地應(yīng)用的關(guān)鍵橋梁。截至2024年底,其全球下載量已突破350萬次,在行業(yè)內(nèi)被廣泛應(yīng)用。


MONAI采用清晰的三層架構(gòu)設(shè)計:

MONAI Core:提供專門針對醫(yī)學(xué)影像的高效數(shù)據(jù)處理、變換方法與網(wǎng)絡(luò)架構(gòu);


MONAI Label:作為智能標注工具,通過AI輔助大幅提升數(shù)據(jù)標注效率;


MONAI Deploy:支持將訓(xùn)練好的AI模型打包并部署至臨床環(huán)境。


憑借從數(shù)據(jù)標注、模型訓(xùn)練到臨床部署的完整閉環(huán)能力,MONAI已成為醫(yī)學(xué)影像AI研究與應(yīng)用的主流框架。


結(jié)構(gòu)預(yù)測模型涉及復(fù)雜的pair representation、幾何推理與擴散式計算,對顯存、訪存及數(shù)值穩(wěn)定性要求極高;基因組基礎(chǔ)模型面向超長序列與大規(guī)模數(shù)據(jù)訓(xùn)練,對長上下文處理、分布式訓(xùn)練及吞吐效率要求嚴苛;醫(yī)學(xué)影像框架強調(diào)從標注、訓(xùn)練到部署的完整鏈條,對框架兼容性與工程落地能力要求更強。對國產(chǎn)GPU而言,真正的挑戰(zhàn)不僅在于跑通模型,更在于同時完成算子適配、數(shù)值穩(wěn)定性驗證、訓(xùn)練與推理雙場景支持,以及開發(fā)環(huán)境的可復(fù)現(xiàn)封裝。


摩爾線程全功能GPU實踐

面對這些挑戰(zhàn),摩爾線程基于自主MUSA軟件棧,完成了對Protenix、Evo 2及MONAI三大生命科學(xué)AI工具的完整驗證與支持,覆蓋推理、訓(xùn)練及醫(yī)學(xué)影像三大場景。


Protenix:訓(xùn)練性能達115%以上

Protenix-v0.5.0作為開源社區(qū)中追平AlphaFold 3水平的重要版本,為開發(fā)者提供了可訓(xùn)練、可定制的全棧開源方案。摩爾線程在MTT S5000上完成了對該模型的推理與訓(xùn)練驗證。


20260417052500930.png

圖3:7r6r等示例序列在MTT S5000上的推理重建結(jié)果和誤差對比


推理精度:

選取 7r6r、7wux、7pzb三個示例序列進行推理重建測試。如上圖所示,重建可視化效果與參考實現(xiàn)基本一致,端到端整體計算誤差小于1%,充分驗證了推理結(jié)果的準確性與可靠性。


訓(xùn)練性能:


如下圖所示,在全數(shù)據(jù)集訓(xùn)練任務(wù)中,MTT S5000單卡性能達到國際主流GPU的115%以上。


20260417052502148.png


圖4:Protenix-v0.5.0實測表現(xiàn)


Evo 2:精度完全對標

在Evo 2_7B模型上,摩爾線程完成了推理與訓(xùn)練的精度對標。對4個序列生成任務(wù)的比對顯示:序列生成Score、準確率與國際主流GPU持平,充分體現(xiàn)了MUSA軟件棧對基因組大模型的完整兼容性。


20260417052503161.png

圖5:Evo 2_7B實測表現(xiàn)


MONAI:國產(chǎn)化加速


在醫(yī)學(xué)影像環(huán)節(jié),摩爾線程已開源MUSA加速版MONAI 1.5.0(了解更多詳情請參見https://gitee.com/MooreThreads/monai ),為AI醫(yī)學(xué)影像領(lǐng)域提供國產(chǎn)算力支撐?;贛USA軟件棧,摩爾線程實現(xiàn)了對MONAI官方倉庫的原生支持,開發(fā)者可實現(xiàn)“零學(xué)習(xí)成本”的無縫遷移。


國內(nèi)領(lǐng)先的XR+AI智慧外科解決方案提供商錦瑟醫(yī)療,已將MONAI深度集成至其產(chǎn)品線。錦瑟醫(yī)療CTO陳亮表示:“我們基于CUDA開發(fā)的成熟算法,可以低成本、高效率且無損地遷移到摩爾線程MUSA平臺。在AI醫(yī)學(xué)影像的復(fù)雜實際任務(wù)中,MUSA展現(xiàn)出與CUDA對等的計算精度與運行穩(wěn)定性?!?/p>


這意味著,國產(chǎn)全功能GPU的價值不再局限于研究端的模型驗證,而開始進入更接近真實醫(yī)療應(yīng)用的工程鏈路。


筑基AI4S,共創(chuàng)生命科學(xué)新未來


從基因序列到蛋白質(zhì)宇宙,生命科學(xué)的AI化正在重塑疾病理解與治療的根本范式。在AI for Science(AI4S)的版圖中,蛋白質(zhì)結(jié)構(gòu)預(yù)測與基因組設(shè)計已成為檢驗算法創(chuàng)新與算力能力的試金石。


摩爾線程在生命科學(xué)領(lǐng)域的一系列探索成功推動了“開源模型—本土軟件棧—國產(chǎn)算力—開發(fā)者工作流”的全鏈路閉環(huán)。對國內(nèi)科研機構(gòu)、藥企和醫(yī)療技術(shù)團隊而言,意味著在許可條件、數(shù)據(jù)合規(guī)、供應(yīng)鏈安全與長期迭代能力上,擁有更高自主性,加速從驗證到落地的全流程。


生命科學(xué)的數(shù)字鏡像正在被層層解碼。在AI for Science的時代浪潮中,摩爾線程愿與開發(fā)者一同,在30億堿基對的浩瀚宇宙里,探索從基因到蛋白質(zhì)的未竟之路。



3-958x200_20251021044704_586_20260417162153_360.png

特別推薦
技術(shù)文章更多>>
技術(shù)白皮書下載更多>>
熱門搜索

關(guān)閉

?

關(guān)閉