盡管生物化學(xué)家?guī)资陙?lái)一直在測(cè)量生物物理參數(shù),但這些測(cè)量通常是低通量的。相比之下,基于高通量測(cè)序的分析往往側(cè)重于檢測(cè)僅間接反映這些數(shù)量的富集模式。此外,現(xiàn)代機(jī)器學(xué)習(xí)方法,如深度神經(jīng)網(wǎng)絡(luò),往往會(huì)產(chǎn)生高度過(guò)度參數(shù)化的黑箱模型,其參數(shù)沒(méi)有直接的生物物理意義。在此,美國(guó)哥倫比亞大學(xué)Harmen J. Bussemaker等人描述了一種靈活的機(jī)器學(xué)習(xí)方法并將其稱(chēng)為ProBound,它可以根據(jù)平衡結(jié)合常數(shù)或動(dòng)力學(xué)速率準(zhǔn)確定義序列識(shí)別。ProBound使用三層對(duì)多庫(kù)測(cè)序數(shù)據(jù)系統(tǒng)地建模:1)結(jié)合層利用序列識(shí)別模型從序列預(yù)測(cè)結(jié)合自由能或酶效率;2)分析層對(duì)生成庫(kù)的選擇步驟進(jìn)行編碼并預(yù)測(cè)所有配體的頻率;3)測(cè)序?qū)釉跍y(cè)序期間對(duì)庫(kù)的隨機(jī)采樣進(jìn)行建模。這些層被組合在一個(gè)似然函數(shù)中,該函數(shù)被優(yōu)化以推斷識(shí)別模型。盡管由于隨機(jī)庫(kù)的復(fù)雜性,許多配體具有噪聲計(jì)數(shù)或完全缺失,但最終的識(shí)別模型是穩(wěn)健的。此外,每一層都易于擴(kuò)展。默認(rèn)情況下,對(duì)應(yīng)于特定位置的親和矩陣,結(jié)合層可擴(kuò)展為包括堿基相互作用或多個(gè)轉(zhuǎn)錄因子(TF)的協(xié)同結(jié)合。分析層的靈活性使替代過(guò)程的建模成為可能,如酶改性。最后,可以聯(lián)合分析多個(gè)測(cè)序?qū)右苑治龈鼜?fù)雜的現(xiàn)象(如甲基化敏感性)。圖1. TF結(jié)合模型性能的驗(yàn)證作者展示了ProBound使用模型來(lái)量化TF的行為,該模型可用于探測(cè)以前無(wú)法訪問(wèn)的生物物理參數(shù)的測(cè)序分析,如捕捉DNA改性的影響和多TF復(fù)合物的構(gòu)象靈活性,并直接通過(guò)ChIP-seq等體內(nèi)數(shù)據(jù)推斷特異性而無(wú)需峰值調(diào)用。當(dāng)與稱(chēng)為KD-seq的分析結(jié)合使用時(shí),該方法可以確定蛋白質(zhì)-配體相互作用的絕對(duì)親和力。此外,作者還應(yīng)用ProBound來(lái)分析量化了激酶-底物相互作用的動(dòng)力學(xué)。隨著在序列識(shí)別方面的研究越來(lái)越復(fù)雜,如序列的綜合影響、輔助因素、DNA甲基化和TF濃度或體外和體內(nèi)觀點(diǎn)的整合,作者預(yù)計(jì)對(duì)互補(bǔ)數(shù)據(jù)的嚴(yán)格整合將變得越來(lái)越重要。據(jù)預(yù)計(jì),ProBound將在配體或底物的合理工程等至關(guān)重要的生物技術(shù)領(lǐng)域有諸多應(yīng)用,并為解碼生物網(wǎng)絡(luò)和合理設(shè)計(jì)蛋白質(zhì)-配體相互作用開(kāi)辟新途徑。圖2. 綜合建模量化了甲基化和輔助因子對(duì)TF結(jié)合的影響Prediction of protein-ligand binding affinity from sequencing data with interpretable machine learning, Nature Biotechnology 2022. DOI: 10.1038/s41587-022-01307-0