国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

機(jī)器學(xué)習(xí)大綜述！Nature Catalysis：數(shù)據(jù)科學(xué)加速催化研究進(jìn)程

研究背景

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)（ML）在催化領(lǐng)域早有應(yīng)用，但當(dāng)時(shí)預(yù)測算法僅被用于建立各種催化反應(yīng)的定量構(gòu)效關(guān)系(QSPR)。直到最近50年，催化界才更廣泛地采用數(shù)據(jù)驅(qū)動(dòng)方法（圖1a）用于研究。而在最近十年間，催化研究廣泛利用數(shù)據(jù)科學(xué)概念（數(shù)據(jù)科學(xué)通過一系列分析技術(shù)（如統(tǒng)計(jì)推斷、可視化等）為理解數(shù)據(jù)提供了基礎(chǔ)和背景）來助力催化研究進(jìn)程。

近期，蘇黎世聯(lián)邦理工學(xué)院Javier Pérez-Ramírez等人全面回顧催化研究者如何利用數(shù)據(jù)驅(qū)動(dòng)策略來解決異相、均相和酶催化的復(fù)雜挑戰(zhàn)，強(qiáng)調(diào)了該領(lǐng)域的前沿以及催化子學(xué)科之間的知識遷移，揭示了催化實(shí)驗(yàn)在數(shù)據(jù)探索方面的差距，指出數(shù)據(jù)科學(xué)的四大支柱（描述性、預(yù)測性、因果性和規(guī)范性分析）能彌補(bǔ)這一差距。最后，作者提倡在實(shí)驗(yàn)中采用數(shù)據(jù)科學(xué)方法和數(shù)據(jù)標(biāo)準(zhǔn)化來促進(jìn)數(shù)字催化的研究。

研究亮點(diǎn)

1、作者對2013-2023年期間的同質(zhì)、異質(zhì)和酶催化進(jìn)行了系統(tǒng)的文獻(xiàn)檢索，并以數(shù)據(jù)驅(qū)動(dòng)策略解決催化相關(guān)問題的不同類型，最后，作者將所有研究分為演繹型或歸納型。

2、作者提倡催化研究人員對數(shù)據(jù)驅(qū)動(dòng)概念和策略要有基本了解，但數(shù)據(jù)驅(qū)動(dòng)不會取代人類的直覺或?qū)I(yè)知識。在可預(yù)見的未來，數(shù)據(jù)科學(xué)將集成到催化研究中，加速實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析和新知識的創(chuàng)造。

圖文導(dǎo)讀

通過總結(jié)眾多的文獻(xiàn)報(bào)道，作者確定了催化研究中數(shù)據(jù)驅(qū)動(dòng)方法的兩個(gè)主要目標(biāo)。一種是通過繪制結(jié)構(gòu)-性質(zhì)-性能關(guān)系圖來驗(yàn)證假設(shè)，實(shí)現(xiàn)演繹研究。第二種方法需要確定描述符，以便通過可解釋的ML模型闡明性能。這些研究的重點(diǎn)是通過揭示性能與性質(zhì)或性質(zhì)與結(jié)構(gòu)之間的關(guān)系來建立新的理論，稱之為歸納研究（圖1b）。這些系統(tǒng)性的文獻(xiàn)分析以及將催化反應(yīng)歸類為演繹（或歸納方法）的通用模式，為研究提供了一個(gè)全新的平臺，讓人們能夠深入了解數(shù)據(jù)驅(qū)動(dòng)催化研究的全貌（圖1c）。

圖1 數(shù)據(jù)驅(qū)動(dòng)催化研究的發(fā)展趨勢以及兩種研究方法

鑒于演繹研究的重要性，作者通過研究數(shù)據(jù)來源（實(shí)驗(yàn)、模擬、文獻(xiàn)或數(shù)據(jù)庫）和任務(wù)目標(biāo)（預(yù)測、篩選或優(yōu)化；圖2a）等細(xì)節(jié)分析了它們的范圍。在異相催化方面，ML主要用于指導(dǎo)密度泛函理論(DFT)計(jì)算（約占65%，主要預(yù)測吸附能和電催化反應(yīng)）。在均相催化方面，ML大部分是實(shí)驗(yàn)研究（>60%）。這些研究的目標(biāo)是篩選最佳底物-溶劑組合等，使用的方法是將催化描述符和工藝參數(shù)映射到反應(yīng)產(chǎn)率和選擇性上。

值得注意的是，酶催化展現(xiàn)了理論與實(shí)驗(yàn)工作的統(tǒng)一，例如，從現(xiàn)有數(shù)據(jù)庫中檢索不同酶的氨基酸序列，然后通過實(shí)驗(yàn)室工程實(shí)現(xiàn)所需的特性，但大多數(shù)研究的主要重點(diǎn)在于預(yù)測酶的結(jié)構(gòu)或特性，很少應(yīng)用于化學(xué)反應(yīng)。盡管如此，這些研究對于推動(dòng)催化轉(zhuǎn)化用酶的ML輔助定向設(shè)計(jì)是不可或缺的。接著，作者對異相催化進(jìn)行了類似的分析，根據(jù)驅(qū)動(dòng)力（圖2b）對數(shù)據(jù)進(jìn)行了分類，觀察到熱力學(xué)性質(zhì)多于電催化，光催化應(yīng)用較少。值得注意的是，DFT模擬的數(shù)據(jù)和文獻(xiàn)提取的數(shù)據(jù)占絕大多數(shù)，其目標(biāo)僅限于理論研究。這表明在異相催化實(shí)驗(yàn)中對ML和數(shù)據(jù)科學(xué)的探索還不夠。

圖2 ML的應(yīng)用前景的統(tǒng)計(jì)分析

考慮到催化是化學(xué)的分支學(xué)科，起源于經(jīng)驗(yàn)科學(xué)，數(shù)據(jù)收集和分析是理解催化現(xiàn)象并最終促成發(fā)現(xiàn)的基礎(chǔ)。因此人們致力于開發(fā)數(shù)據(jù)庫，如Open Catalysts Dataset、CatHub、ioChem-BD、Open Reaction Database、Kraken、RetroBioCat等，這些數(shù)據(jù)庫收錄了有關(guān)催化劑結(jié)構(gòu)、性質(zhì)和性能的信息（圖3），推動(dòng)了數(shù)據(jù)驅(qū)動(dòng)催化研究的加速發(fā)展。

圖3 代表性的催化數(shù)據(jù)庫

基于數(shù)據(jù)庫，作者強(qiáng)調(diào)了“ML算法的選擇取決于具體任務(wù)和數(shù)據(jù)可用性”。例如基于樹的算法是各學(xué)科中最常見選擇（占34%），遠(yuǎn)超了人工神經(jīng)網(wǎng)絡(luò)21%的占比（圖4）。出現(xiàn)這種趨勢的原因是，催化數(shù)據(jù)通常以數(shù)值和表格形式表示，而且往往屬于小數(shù)據(jù)體系，基于樹的模型，如隨機(jī)森林等，在處理此類數(shù)據(jù)集時(shí)與神經(jīng)網(wǎng)絡(luò)相比，其更有競爭力或具有更優(yōu)越的性能。

在圖4（a）-（c）中，均相催化領(lǐng)域，線性回歸固有的表達(dá)式為模型提供了更多可解釋性。在酶催化方面，高斯回歸等算法更適合處理大數(shù)據(jù)，通常用于探索氨基酸序列。

圖4 ML建立結(jié)構(gòu)-性質(zhì)-性能關(guān)系

隨著人工智能和ML的不斷進(jìn)步，將數(shù)據(jù)驅(qū)動(dòng)方法融入催化研究的前景一片光明。

（1）基于GPT-3.5等語言模型有望在加速化學(xué)和催化研究方面發(fā)揮關(guān)鍵作用。它們先進(jìn)的自然語言處理（NLP）和文本挖掘能力有助于從科學(xué)文獻(xiàn)中高效導(dǎo)航和提取相關(guān)信息（圖5a）。這些模型通過自動(dòng)提取結(jié)構(gòu)的合成手段或材料特性數(shù)據(jù)，加快了文獻(xiàn)綜述的速度，達(dá)到了節(jié)省時(shí)間和創(chuàng)建化學(xué)知識庫的雙重目的。

（2）主動(dòng)學(xué)習(xí)在指導(dǎo)實(shí)驗(yàn)、幫助發(fā)現(xiàn)和開發(fā)高效催化劑方面大有可為。這種方法通過巧妙地平衡探索與開發(fā)的概念，縮小潛在反應(yīng)途徑和優(yōu)化條件的范圍，從而簡化了化學(xué)和參數(shù)空間搜索（圖5b）。

（3）生成模型（如變分自編碼器(VAE)、生成對抗網(wǎng)絡(luò)(GAN)等）可以加快對未知區(qū)域的探索，并創(chuàng)造出具有所需特性的假想分子或材料（圖5c）。雖然它們在化學(xué)中的應(yīng)用還處于起步階段，但VAE和GAN在預(yù)測和合成具有目標(biāo)功能的酶序列方面的成功應(yīng)用。除了從性質(zhì)到結(jié)構(gòu)的應(yīng)用外，它們還可通過從大型反應(yīng)數(shù)據(jù)集中學(xué)習(xí)來預(yù)測反應(yīng)結(jié)果，從而提出以前未探索過的反應(yīng)條件或反應(yīng)途徑。

（4）深度強(qiáng)化學(xué)習(xí)（DRL）可促進(jìn)自主學(xué)習(xí)和決策，減少了對ab initio計(jì)算的需求，并加快了最優(yōu)反應(yīng)途徑或催化劑結(jié)構(gòu)（表面）的發(fā)現(xiàn)（圖5d）。此外，DRL可以處理多目標(biāo)問題（同時(shí)優(yōu)化產(chǎn)率和選擇性）。

圖5 數(shù)據(jù)驅(qū)動(dòng)加速催化研究的概覽

雖然前景一片光明，但數(shù)據(jù)驅(qū)動(dòng)催化的應(yīng)用還處于起步階段，作者認(rèn)為人工智能的發(fā)展將促使這一新興領(lǐng)域取得更大進(jìn)展。然而，這需要在實(shí)驗(yàn)催化中更多地采用數(shù)據(jù)科學(xué)方法，但目前的趨勢并不明顯，造成這種差異的因素主要包括：兩個(gè)領(lǐng)域之間的知識差距，ML只能在大數(shù)據(jù)（大于1000個(gè)數(shù)據(jù)點(diǎn)）中發(fā)揮良好作用的觀念，以及對數(shù)據(jù)驅(qū)動(dòng)模型的黑箱性質(zhì)缺乏信任。為了解決這些問題，作者詳細(xì)闡述了描述性分析、預(yù)測性分析、因果分析和描述性分析的概念（圖6），希望數(shù)據(jù)驅(qū)動(dòng)工具和策略在實(shí)驗(yàn)催化領(lǐng)域得到更廣泛的普及和接受。

圖6 數(shù)據(jù)驅(qū)動(dòng)催化研究所面臨的挑戰(zhàn)

數(shù)據(jù)科學(xué)的基本思想是，數(shù)據(jù)可以為手頭的工作提供見解，而無需過度依賴預(yù)測模型。對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析以識別模式和關(guān)系，不受理論偏見的影響，被稱為描述性分析。對于大型數(shù)據(jù)集而言，采用可視化技術(shù)對于增強(qiáng)描述性推斷至關(guān)重要。例如，網(wǎng)絡(luò)圖，用于定量分析所使用的不同類型的活性相、促進(jìn)劑和支持物，以及它們之間的相互作用頻率；連續(xù)變量（如反應(yīng)條件）的直方圖或小提琴圖，用于了解數(shù)據(jù)分布；以及選擇性與轉(zhuǎn)化率映射的二維定位圖，用于產(chǎn)生第三維度（圖7a-c）。至于催化劑篩選，目前多是遵循試錯(cuò)法，從數(shù)據(jù)科學(xué)的角度來看，催化劑篩選類似于模式匹配，因此非常適合開發(fā)以化學(xué)為依據(jù)的預(yù)測分析。根據(jù)初步篩選獲得的現(xiàn)有數(shù)據(jù)，預(yù)測分析法可將性能與描述符和反應(yīng)條件相關(guān)聯(lián)，提供內(nèi)推的可能性，在某些情況下還可外推模型，以確定未經(jīng)測試的催化劑的性能（圖7d），實(shí)現(xiàn)節(jié)省時(shí)間和資源，并確保了更大覆蓋面。

雖然經(jīng)典的ML算法具有更強(qiáng)的預(yù)測能力，但它們通常是具有黑箱性質(zhì)，對相關(guān)催化系統(tǒng)的合理化作用微乎其微。而因果分析是通過不斷迭代的可解釋ML方法，其能夠很好地解釋催化系統(tǒng)。該方法與模型無關(guān)，只根據(jù)輸入變量對目標(biāo)變量的貢獻(xiàn)（圖7e）按其重要性排序。此外，還可以結(jié)合實(shí)驗(yàn)驗(yàn)證的數(shù)據(jù)用于模型的再訓(xùn)練，以改進(jìn)目標(biāo)變量預(yù)測，并提出更可靠的實(shí)驗(yàn)改進(jìn)方案（圖7f）。

圖7 數(shù)據(jù)科學(xué)與實(shí)驗(yàn)的結(jié)合特點(diǎn)

對于未來，將深度學(xué)習(xí)算法與先進(jìn)表征技術(shù)相結(jié)合，將使實(shí)驗(yàn)人員能夠以更快的速度揭示催化材料的復(fù)雜性，并具有預(yù)測能力。與人工圖像分析相比，此類算法能減少人為偏差，并提升效率約2000倍（圖8a）。而XAFS和XANES產(chǎn)生的復(fù)雜數(shù)據(jù)集對傳統(tǒng)分析方法提出了挑戰(zhàn)，在此類海量數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)算法可以破譯活性物種局部環(huán)境的定量結(jié)構(gòu)信息，包括它們與吸附物的相互作用，并揭示復(fù)雜的反應(yīng)動(dòng)力學(xué)（圖8b）。

圖8 實(shí)驗(yàn)與數(shù)據(jù)科學(xué)結(jié)合的展望

文獻(xiàn)信息

Suvarna, M., & Pérez-Ramírez, J. (2024). Embracing data science in catalysis research. Nature Catalysis, 1-12.

doi：10.1038/s41929-024-01150-3

原創(chuàng)文章，作者：wang，如若轉(zhuǎn)載，請注明來源華算科技，注明出處：http://www.xiubac.cn/index.php/2024/05/20/ea8039c566/

国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

機(jī)器學(xué)習(xí)大綜述！Nature Catalysis：數(shù)據(jù)科學(xué)加速催化研究進(jìn)程

相關(guān)推薦