昆明植物所拓展AI輔助天然產(chǎn)物研究技術取得新進展
天然產(chǎn)物是來源于微生物、植物和動物的一類結構高度多樣的化學物質(zhì),在新藥發(fā)現(xiàn)、化學生態(tài)和代謝組學等領域研究中占據(jù)重要地位。盡管實驗室自動化以及分離鑒定技術的快速發(fā)展顯著提升了天然產(chǎn)物的發(fā)現(xiàn)效率,但其結構解析仍然高度依賴人工經(jīng)驗和多維譜學驗證,過程復雜、周期漫長,已逐漸成為制約天然產(chǎn)物研究與應用開發(fā)的關鍵瓶頸。
中國科學院昆明植物研究所植物化學與天然藥物全國重點是實驗室邱明華研究團隊近年來持續(xù)聚焦于基于深度學習方法的天然產(chǎn)物結構與活性研究。在前期工作中,團隊系統(tǒng)梳理并深入討論了機器學習輔助光譜解析在天然產(chǎn)物研究中的一系列前沿技術(Natural Product Reports, 2023, 40, 1735-1753),為該領域的進一步發(fā)展奠定了有價值的理論框架和方法基礎。
核磁共振(NMR)是天然產(chǎn)物結構鑒定中最重要的分析工具之一。然而,NMR 譜圖的結構注釋通常高度依賴成本高昂的實驗數(shù)據(jù)。盡管近年來基于量子化學計算或者人工智能算法生成的虛擬NMR數(shù)據(jù)在一定程度上擴展了數(shù)據(jù)庫規(guī)模,但基于虛擬數(shù)據(jù)庫的結構注釋準確率仍然有限。為解決這一問題,研究團隊近期提出了一種新的工具 VirMolAnalyte(https://www.virmolanalyte.top/),可在無實驗數(shù)據(jù)依賴下,實現(xiàn)對 13C DEPT NMR 譜圖的高質(zhì)量結構注釋。


圖1 基于 13C DEPT NMR的注釋天然產(chǎn)物化學結構新工具VirMolAnalyte的思路
VirMolAnalyte 利用深度神經(jīng)網(wǎng)絡從 13C DEPT NMR 譜中提取分子指紋信息,并結合“篩選–評估”(filter–evaluator)策略開展多維 in silico 數(shù)據(jù)庫檢索。其核心思想在于改進了基于化學位移匹配的搜索算法,同時將基于深度神經(jīng)網(wǎng)絡預測的分子指紋信息融合到化學位移檢索過程中,從而顯著提升基于虛擬數(shù)據(jù)庫的準確率。在DB6123數(shù)據(jù)集上的評估結果表明,該融合策略的Top 1準確率達到 94.2%,明顯優(yōu)于傳統(tǒng)的化學位移搜索方法。
在此基礎上,研究團隊整合了 COCONUT、CMAUP v1.0、PMhub、HMDB、NPAtlas 和 FooDB 等多個涵蓋植物、人體、微生物的代謝產(chǎn)物及藥物來源的結構數(shù)據(jù)庫,構建了一個包含約 60 萬個天然產(chǎn)物結構的綜合多維信息數(shù)據(jù)庫MMDB。在基于MMDB的結構注釋任務中,VirMolAnalyte 仍取得了超過90.0%的Top 1結構注釋準確率,表明該融合策略在大規(guī)模復雜數(shù)據(jù)庫場景下具有良好的泛化能力。另外,為驗證 VirMolAnalyte 在新天然產(chǎn)物結構解析中的應用潛力,研究團隊將其用于分析來源于阿拉比卡咖啡(Coffea arabica L.)果皮的一種未知代謝物。檢索結果未匹配到已知化合物,但成功識別出與咖啡二萜類相關的關鍵結構單元,提示其包含三環(huán)醚和五元內(nèi)酯等結構特征。結合二維 NMR 數(shù)據(jù)及后續(xù)構型分析,最終確認該化合物為一種罕見的螺環(huán)型咖啡二萜類新化合物,初步表明 VirMolAnalyte 能夠為新穎天然產(chǎn)物的初期結構推測和確證提供有效線索。
VirMolAnalyte 工具彌補了NMR數(shù)據(jù)在化合物初期結構鑒定階段缺乏高質(zhì)量虛擬數(shù)據(jù)庫注釋方法的空白,為后續(xù)精細結構解析提供方向指引,有助于提升天然產(chǎn)物研究和新藥發(fā)現(xiàn)的前期效率。相關研究工作在線發(fā)表于Analytical Chemistry (2025, 97, 51, 28181-28191)。中國科學院昆明植物所邱明華研究員為通訊作者,胡貴林博士后和Jameel Hizam Alafifi博士為論文共同第一作者,研究工作獲云南省科技重點專項(202003AD150006)、重大專項(202305AH340005),中國科學院B類先導專項(XDB1230201),國家自然科學基金青年基金項目(82504632),國家博士后研究人員計劃(GZC20232766)等項目資助。


圖2 基于“篩選-評估”策略的 VirMolAnalyte。(a) NMR2FP-DNN 模型的訓練流程,用于從13C DEPT NMR 譜中預測分子指紋;(b) VirMolAnalyte 中各評估器的基本原理;(c) VirMolAnalyte 的整體工作流程:NMR2FP-DNN 根據(jù)輸入的13C DEPT NMR 數(shù)據(jù)預測 PubChem 分子指紋,預測指紋與化學位移信息共同作為輸入,通過“篩選–評估”策略在 in silico 數(shù)據(jù)庫中完成結構注釋。


圖3 VirMolAnalyte 工具基于 MMDB 數(shù)據(jù)庫的天然產(chǎn)物結構注釋

| 版權聲明: 1.依據(jù)《服務條款》,本網(wǎng)頁發(fā)布的原創(chuàng)作品,版權歸發(fā)布者(即注冊用戶)所有;本網(wǎng)頁發(fā)布的轉載作品,由發(fā)布者按照互聯(lián)網(wǎng)精神進行分享,遵守相關法律法規(guī),無商業(yè)獲利行為,無版權糾紛。 2.本網(wǎng)頁是第三方信息存儲空間,阿酷公司是網(wǎng)絡服務提供者,服務對象為注冊用戶。該項服務免費,阿酷公司不向注冊用戶收取任何費用。 名稱:阿酷(北京)科技發(fā)展有限公司 聯(lián)系人:李女士,QQ468780427 網(wǎng)絡地址:www.arkoo.com 3.本網(wǎng)頁參與各方的所有行為,完全遵守《信息網(wǎng)絡傳播權保護條例》。如有侵權行為,請權利人通知阿酷公司,阿酷公司將根據(jù)本條例第二十二條規(guī)定刪除侵權作品。 |
m.quanpro.cn