成果簡介
在此,來自美國斯坦福大學(xué)的RHIJU DAS & RON O. DROR等研究者引入了一種機(jī)器學(xué)習(xí)方法,盡管只接受了18種已知RNA結(jié)構(gòu)的訓(xùn)練,但它可以在不假設(shè)其定義特征的情況下識別出準(zhǔn)確的結(jié)構(gòu)模型。該論文以題為“Geometric deep learning of RNA structure”發(fā)表在國際頂級期刊Science上。
RNA分子,像蛋白質(zhì)一樣,可折疊成定義良好的三維(3D)結(jié)構(gòu),以執(zhí)行廣泛的細(xì)胞功能,如催化反應(yīng)、調(diào)節(jié)基因表達(dá)、調(diào)節(jié)先天免疫和感知小分子等。了解這些結(jié)構(gòu),對于理解RNA功能機(jī)制、設(shè)計合成RNA和發(fā)現(xiàn)RNA靶向藥物至關(guān)重要。人類目前對RNA結(jié)構(gòu)的了解,遠(yuǎn)遠(yuǎn)落后于對蛋白質(zhì)結(jié)構(gòu)的了解:人類基因組轉(zhuǎn)錄成RNA的部分大約是蛋白質(zhì)編碼的30倍,但可用的RNA結(jié)構(gòu)的數(shù)量是蛋白質(zhì)的1%。因此,對RNA三維結(jié)構(gòu)的計算預(yù)測具有重大意義。
盡管經(jīng)過幾十年的努力,但預(yù)測RNA的3D結(jié)構(gòu),仍然是一個巨大的挑戰(zhàn),已經(jīng)被證明比預(yù)測蛋白質(zhì)結(jié)構(gòu)更困難。對于蛋白質(zhì),最先進(jìn)的預(yù)測方法充分利用了相關(guān)蛋白質(zhì)的序列或結(jié)構(gòu)。這種方法在RNA上成功的幾率要小得多,一方面是因為緊密相關(guān)RNA的模板結(jié)構(gòu)可用的頻率要低得多,另一方面是因為序列協(xié)同進(jìn)化信息提供的關(guān)于RNA中三級接觸的信息較少。此外,設(shè)計一個可靠地區(qū)分準(zhǔn)確的RNA結(jié)構(gòu)模型和不太準(zhǔn)確的RNA結(jié)構(gòu)模型的評分函數(shù),已經(jīng)被證明是困難的,因為能量有利的RNA結(jié)構(gòu)的特征還沒有被充分理解。
這個難題引出了另一個問題,即算法是否可以從已知的RNA結(jié)構(gòu)中學(xué)習(xí),以評估不相關(guān)RNA結(jié)構(gòu)模型的準(zhǔn)確性。這樣的機(jī)器學(xué)習(xí)任務(wù)帶來了兩大挑戰(zhàn):(i)避免假設(shè)哪些結(jié)構(gòu)特征,可能區(qū)分精確的模型和不精確的模型;以及(ii)從有限數(shù)量的RNA結(jié)構(gòu)中學(xué)習(xí),已經(jīng)通過實驗確定。不需要預(yù)定義功能的深度學(xué)習(xí)方法,在許多領(lǐng)域取得了顯著的進(jìn)展,但它們的成功在很大程度上僅限于數(shù)據(jù)豐富的領(lǐng)域。
圖文解析
圖1 ARES網(wǎng)絡(luò)
ARES不包括:任何關(guān)于結(jié)構(gòu)模型的哪些特征與評估其準(zhǔn)確性有關(guān)的假設(shè)。例如,ARES對雙螺旋、堿基對、核苷酸或氫鍵沒有預(yù)先的概念。ARES背后的方法根本不是針對RNA的,因此適用于任何類型的分子系統(tǒng)。
ARES網(wǎng)絡(luò)的初始層設(shè)計用于識別結(jié)構(gòu)主題,這些主題的身份是在訓(xùn)練過程中學(xué)習(xí)的,而不是預(yù)先指定的。每一層根據(jù)周圍原子的幾何排列和前一層計算的特征為每個原子計算若干特征。第一層的唯一輸入是每個原子的三維坐標(biāo)和化學(xué)元素類型。
這些初始網(wǎng)絡(luò)層的結(jié)構(gòu)認(rèn)識到,給定結(jié)構(gòu)基序的實例通常是不同的方向和位置,較粗的基序(如螺旋)通常包含較細(xì)的基序(如堿基對)的特定安排。每一層在旋轉(zhuǎn)和平動上都是等價的——也就是說,其輸入的旋轉(zhuǎn)或平動導(dǎo)致其輸出的相應(yīng)變換。這個屬性捕獲了物理對于參考系旋轉(zhuǎn)或平移的不變性,但確保了已識別主題的方向和位置被傳遞到網(wǎng)絡(luò)的下一層,該層可以使用這個信息來識別更粗尺度的主題。
ARES的初始層在局部收集信息,其余層在所有原子間收集信息。這種組合允許ARES預(yù)測一個全局屬性(在這種情況下,是結(jié)構(gòu)模型的準(zhǔn)確性),同時詳細(xì)捕捉局部結(jié)構(gòu)主題和原子間的相互作用。
為了訓(xùn)練ARES,研究者使用了18個RNA分子,這些RNA分子的實驗確定結(jié)構(gòu)包括從1994年至2006年之間發(fā)表的。研究者使用Rosetta FARFAR2采樣方法,生成了每個RNA的1000個結(jié)構(gòu)模型,而沒有使用任何已知的結(jié)構(gòu)。然后,研究者優(yōu)化了ARES神經(jīng)網(wǎng)絡(luò)的參數(shù),使其輸出與每個模型對應(yīng)結(jié)構(gòu)的RMSD盡可能接近。
在第一個基準(zhǔn)測試中,ARES大大優(yōu)于其他三個評分函數(shù)(圖2A-C)。當(dāng)使用ARES時,62%的基準(zhǔn)RNAs的單一最佳得分結(jié)構(gòu)模型接近原生(<2 ? RMSD),而Rosetta、RASP和3dRNAscore分別為43、33和5%。在使用ARES時,10個評分最高的模型包括81%的基準(zhǔn)RNA的至少一個近原生模型,而Rosetta、RASP和3dRNAscore分別為48、48和33%。每個得分最高的近似原生模型,都是在原生結(jié)構(gòu)的能量約束下生成的。
圖2 在識別準(zhǔn)確的結(jié)構(gòu)模型方面,ARES大大優(yōu)于以往的評分函數(shù)
在每一種情況下,通過RMSD和變形指數(shù)測量,該過程產(chǎn)生了任何參與者提交的最精確的模型(圖3)。對于每個RNA,參賽作品至少由9種其他方法產(chǎn)生,包括使用相同的FARFAR2候選結(jié)構(gòu)模型,但使用Das實驗室人類專家的判斷或Rosetta(2020)評分功能從中選擇的方法。研究者還發(fā)現(xiàn),ARES評分函數(shù)的表現(xiàn)優(yōu)于應(yīng)用于同一組候選模型的各種其他評分函數(shù),包括最近基于卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法。
圖3 ARES在RNA結(jié)構(gòu)盲預(yù)測方面取得了最先進(jìn)的結(jié)果
對訓(xùn)練后的ARES網(wǎng)絡(luò)的分析表明,它自發(fā)地發(fā)現(xiàn)了RNA結(jié)構(gòu)的某些基本特征。例如,ARES可以正確預(yù)測雙螺旋中兩股之間的最佳距離。,允許理想堿基配對的距離(圖4A)。此外,ARES從一組RNA結(jié)構(gòu)中提取的高級特征,反映了每個結(jié)構(gòu)中的氫鍵和Watson-Crick堿基配對的程度(圖4B),盡管研究者從未告知ARES氫鍵和堿基配對是RNA結(jié)構(gòu)形成的關(guān)鍵驅(qū)動因素。
圖4 ARES學(xué)習(xí)識別沒有預(yù)先指定的RNA結(jié)構(gòu)的關(guān)鍵特征
盡管只使用少量結(jié)構(gòu)進(jìn)行訓(xùn)練,但ARES仍能超越之前的技術(shù)水平,這表明類似的神經(jīng)網(wǎng)絡(luò)可能會在其他領(lǐng)域取得重大進(jìn)展,包括3D分子結(jié)構(gòu),而在3D分子結(jié)構(gòu)領(lǐng)域,數(shù)據(jù)常常是有限的,收集起來也很昂貴。除了結(jié)構(gòu)預(yù)測,例子可能包括分子設(shè)計(包括蛋白質(zhì)或核酸等大分子和小分子藥物),估計納米粒子半導(dǎo)體的電磁特性,以及預(yù)測合金和其他材料的力學(xué)性能。
原文鏈接
Townshend, Raphael JL, et al. “Geometric deep learning of RNA structure.”?Science 373.6558 (2021): 1047-1051.
原創(chuàng)文章,作者:v-suan,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.xiubac.cn/index.php/2023/10/15/4e4f296e8d/