国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

機(jī)器學(xué)習(xí)大綜述!Nature Catalysis:數(shù)據(jù)科學(xué)加速催化研究進(jìn)程

機(jī)器學(xué)習(xí)大綜述!Nature Catalysis:數(shù)據(jù)科學(xué)加速催化研究進(jìn)程
研究背景
數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)(ML)在催化領(lǐng)域早有應(yīng)用,但當(dāng)時(shí)預(yù)測算法僅被用于建立各種催化反應(yīng)的定量構(gòu)效關(guān)系(QSPR)。直到最近50年,催化界才更廣泛地采用數(shù)據(jù)驅(qū)動(dòng)方法(圖1a)用于研究。而在最近十年間,催化研究廣泛利用數(shù)據(jù)科學(xué)概念(數(shù)據(jù)科學(xué)通過一系列分析技術(shù)(如統(tǒng)計(jì)推斷、可視化等)為理解數(shù)據(jù)提供了基礎(chǔ)和背景)來助力催化研究進(jìn)程。
近期,蘇黎世聯(lián)邦理工學(xué)院Javier Pérez-Ramírez等人全面回顧催化研究者如何利用數(shù)據(jù)驅(qū)動(dòng)策略來解決異相、均相和酶催化的復(fù)雜挑戰(zhàn),強(qiáng)調(diào)了該領(lǐng)域的前沿以及催化子學(xué)科之間的知識遷移,揭示了催化實(shí)驗(yàn)在數(shù)據(jù)探索方面的差距,指出數(shù)據(jù)科學(xué)的四大支柱(描述性、預(yù)測性、因果性和規(guī)范性分析)能彌補(bǔ)這一差距。最后,作者提倡在實(shí)驗(yàn)中采用數(shù)據(jù)科學(xué)方法和數(shù)據(jù)標(biāo)準(zhǔn)化來促進(jìn)數(shù)字催化的研究。
研究亮點(diǎn)

1、作者對2013-2023年期間的同質(zhì)、異質(zhì)和酶催化進(jìn)行了系統(tǒng)的文獻(xiàn)檢索,并以數(shù)據(jù)驅(qū)動(dòng)策略解決催化相關(guān)問題的不同類型,最后,作者將所有研究分為演繹型或歸納型。
2、作者提倡催化研究人員對數(shù)據(jù)驅(qū)動(dòng)概念和策略要有基本了解,但數(shù)據(jù)驅(qū)動(dòng)不會取代人類的直覺或?qū)I(yè)知識。在可預(yù)見的未來,數(shù)據(jù)科學(xué)將集成到催化研究中,加速實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析和新知識的創(chuàng)造。
圖文導(dǎo)讀

通過總結(jié)眾多的文獻(xiàn)報(bào)道,作者確定了催化研究中數(shù)據(jù)驅(qū)動(dòng)方法的兩個(gè)主要目標(biāo)。一種是通過繪制結(jié)構(gòu)-性質(zhì)-性能關(guān)系圖來驗(yàn)證假設(shè),實(shí)現(xiàn)演繹研究。第二種方法需要確定描述符,以便通過可解釋的ML模型闡明性能。這些研究的重點(diǎn)是通過揭示性能與性質(zhì)或性質(zhì)與結(jié)構(gòu)之間的關(guān)系來建立新的理論,稱之為歸納研究(圖1b)。這些系統(tǒng)性的文獻(xiàn)分析以及將催化反應(yīng)歸類為演繹(或歸納方法)的通用模式,為研究提供了一個(gè)全新的平臺,讓人們能夠深入了解數(shù)據(jù)驅(qū)動(dòng)催化研究的全貌(圖1c)。
機(jī)器學(xué)習(xí)大綜述!Nature Catalysis:數(shù)據(jù)科學(xué)加速催化研究進(jìn)程
圖1 數(shù)據(jù)驅(qū)動(dòng)催化研究的發(fā)展趨勢以及兩種研究方法
鑒于演繹研究的重要性,作者通過研究數(shù)據(jù)來源(實(shí)驗(yàn)、模擬、文獻(xiàn)或數(shù)據(jù)庫)和任務(wù)目標(biāo)(預(yù)測、篩選或優(yōu)化;圖2a)等細(xì)節(jié)分析了它們的范圍。在異相催化方面,ML主要用于指導(dǎo)密度泛函理論(DFT)計(jì)算(約占65%,主要預(yù)測吸附能和電催化反應(yīng))。在均相催化方面,ML大部分是實(shí)驗(yàn)研究(>60%)。這些研究的目標(biāo)是篩選最佳底物-溶劑組合等,使用的方法是將催化描述符和工藝參數(shù)映射到反應(yīng)產(chǎn)率和選擇性上。
值得注意的是,酶催化展現(xiàn)了理論與實(shí)驗(yàn)工作的統(tǒng)一,例如,從現(xiàn)有數(shù)據(jù)庫中檢索不同酶的氨基酸序列,然后通過實(shí)驗(yàn)室工程實(shí)現(xiàn)所需的特性,但大多數(shù)研究的主要重點(diǎn)在于預(yù)測酶的結(jié)構(gòu)或特性,很少應(yīng)用于化學(xué)反應(yīng)。盡管如此,這些研究對于推動(dòng)催化轉(zhuǎn)化用酶的ML輔助定向設(shè)計(jì)是不可或缺的。接著,作者對異相催化進(jìn)行了類似的分析,根據(jù)驅(qū)動(dòng)力(圖2b)對數(shù)據(jù)進(jìn)行了分類,觀察到熱力學(xué)性質(zhì)多于電催化,光催化應(yīng)用較少。值得注意的是,DFT模擬的數(shù)據(jù)和文獻(xiàn)提取的數(shù)據(jù)占絕大多數(shù),其目標(biāo)僅限于理論研究。這表明在異相催化實(shí)驗(yàn)中對ML和數(shù)據(jù)科學(xué)的探索還不夠。
機(jī)器學(xué)習(xí)大綜述!Nature Catalysis:數(shù)據(jù)科學(xué)加速催化研究進(jìn)程
圖2 ML的應(yīng)用前景的統(tǒng)計(jì)分析
考慮到催化是化學(xué)的分支學(xué)科,起源于經(jīng)驗(yàn)科學(xué),數(shù)據(jù)收集和分析是理解催化現(xiàn)象并最終促成發(fā)現(xiàn)的基礎(chǔ)。因此人們致力于開發(fā)數(shù)據(jù)庫,如Open Catalysts Dataset、CatHub、ioChem-BD、Open Reaction Database、Kraken、RetroBioCat等,這些數(shù)據(jù)庫收錄了有關(guān)催化劑結(jié)構(gòu)、性質(zhì)和性能的信息(圖3),推動(dòng)了數(shù)據(jù)驅(qū)動(dòng)催化研究的加速發(fā)展。
機(jī)器學(xué)習(xí)大綜述!Nature Catalysis:數(shù)據(jù)科學(xué)加速催化研究進(jìn)程
圖3 代表性的催化數(shù)據(jù)庫
基于數(shù)據(jù)庫,作者強(qiáng)調(diào)了“ML算法的選擇取決于具體任務(wù)和數(shù)據(jù)可用性”。例如基于樹的算法是各學(xué)科中最常見選擇(占34%),遠(yuǎn)超了人工神經(jīng)網(wǎng)絡(luò)21%的占比(圖4)。出現(xiàn)這種趨勢的原因是,催化數(shù)據(jù)通常以數(shù)值和表格形式表示,而且往往屬于小數(shù)據(jù)體系,基于樹的模型,如隨機(jī)森林等,在處理此類數(shù)據(jù)集時(shí)與神經(jīng)網(wǎng)絡(luò)相比,其更有競爭力或具有更優(yōu)越的性能。
在圖4(a)-(c)中,均相催化領(lǐng)域,線性回歸固有的表達(dá)式為模型提供了更多可解釋性。在酶催化方面,高斯回歸等算法更適合處理大數(shù)據(jù),通常用于探索氨基酸序列。
機(jī)器學(xué)習(xí)大綜述!Nature Catalysis:數(shù)據(jù)科學(xué)加速催化研究進(jìn)程
圖4 ML建立結(jié)構(gòu)-性質(zhì)-性能關(guān)系
隨著人工智能和ML的不斷進(jìn)步,將數(shù)據(jù)驅(qū)動(dòng)方法融入催化研究的前景一片光明。
(1)基于GPT-3.5等語言模型有望在加速化學(xué)和催化研究方面發(fā)揮關(guān)鍵作用。它們先進(jìn)的自然語言處理(NLP)和文本挖掘能力有助于從科學(xué)文獻(xiàn)中高效導(dǎo)航和提取相關(guān)信息(圖5a)。這些模型通過自動(dòng)提取結(jié)構(gòu)的合成手段或材料特性數(shù)據(jù),加快了文獻(xiàn)綜述的速度,達(dá)到了節(jié)省時(shí)間和創(chuàng)建化學(xué)知識庫的雙重目的。
(2)主動(dòng)學(xué)習(xí)在指導(dǎo)實(shí)驗(yàn)、幫助發(fā)現(xiàn)和開發(fā)高效催化劑方面大有可為。這種方法通過巧妙地平衡探索與開發(fā)的概念,縮小潛在反應(yīng)途徑和優(yōu)化條件的范圍,從而簡化了化學(xué)和參數(shù)空間搜索(圖5b)。
(3)生成模型(如變分自編碼器(VAE)、生成對抗網(wǎng)絡(luò)(GAN)等)可以加快對未知區(qū)域的探索,并創(chuàng)造出具有所需特性的假想分子或材料(圖5c)。雖然它們在化學(xué)中的應(yīng)用還處于起步階段,但VAE和GAN在預(yù)測和合成具有目標(biāo)功能的酶序列方面的成功應(yīng)用。除了從性質(zhì)到結(jié)構(gòu)的應(yīng)用外,它們還可通過從大型反應(yīng)數(shù)據(jù)集中學(xué)習(xí)來預(yù)測反應(yīng)結(jié)果,從而提出以前未探索過的反應(yīng)條件或反應(yīng)途徑。
(4)深度強(qiáng)化學(xué)習(xí)(DRL)可促進(jìn)自主學(xué)習(xí)和決策,減少了對ab initio計(jì)算的需求,并加快了最優(yōu)反應(yīng)途徑或催化劑結(jié)構(gòu)(表面)的發(fā)現(xiàn)(圖5d)。此外,DRL可以處理多目標(biāo)問題(同時(shí)優(yōu)化產(chǎn)率和選擇性)。
機(jī)器學(xué)習(xí)大綜述!Nature Catalysis:數(shù)據(jù)科學(xué)加速催化研究進(jìn)程
圖5 數(shù)據(jù)驅(qū)動(dòng)加速催化研究的概覽
雖然前景一片光明,但數(shù)據(jù)驅(qū)動(dòng)催化的應(yīng)用還處于起步階段,作者認(rèn)為人工智能的發(fā)展將促使這一新興領(lǐng)域取得更大進(jìn)展。然而,這需要在實(shí)驗(yàn)催化中更多地采用數(shù)據(jù)科學(xué)方法,但目前的趨勢并不明顯,造成這種差異的因素主要包括:兩個(gè)領(lǐng)域之間的知識差距,ML只能在大數(shù)據(jù)(大于1000個(gè)數(shù)據(jù)點(diǎn))中發(fā)揮良好作用的觀念,以及對數(shù)據(jù)驅(qū)動(dòng)模型的黑箱性質(zhì)缺乏信任。為了解決這些問題,作者詳細(xì)闡述了描述性分析、預(yù)測性分析、因果分析和描述性分析的概念(圖6),希望數(shù)據(jù)驅(qū)動(dòng)工具和策略在實(shí)驗(yàn)催化領(lǐng)域得到更廣泛的普及和接受。
機(jī)器學(xué)習(xí)大綜述!Nature Catalysis:數(shù)據(jù)科學(xué)加速催化研究進(jìn)程
圖6 數(shù)據(jù)驅(qū)動(dòng)催化研究所面臨的挑戰(zhàn)
數(shù)據(jù)科學(xué)的基本思想是,數(shù)據(jù)可以為手頭的工作提供見解,而無需過度依賴預(yù)測模型。對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析以識別模式和關(guān)系,不受理論偏見的影響,被稱為描述性分析。對于大型數(shù)據(jù)集而言,采用可視化技術(shù)對于增強(qiáng)描述性推斷至關(guān)重要。例如,網(wǎng)絡(luò)圖,用于定量分析所使用的不同類型的活性相、促進(jìn)劑和支持物,以及它們之間的相互作用頻率;連續(xù)變量(如反應(yīng)條件)的直方圖或小提琴圖,用于了解數(shù)據(jù)分布;以及選擇性與轉(zhuǎn)化率映射的二維定位圖,用于產(chǎn)生第三維度(圖7a-c)。至于催化劑篩選,目前多是遵循試錯(cuò)法,從數(shù)據(jù)科學(xué)的角度來看,催化劑篩選類似于模式匹配,因此非常適合開發(fā)以化學(xué)為依據(jù)的預(yù)測分析。根據(jù)初步篩選獲得的現(xiàn)有數(shù)據(jù),預(yù)測分析法可將性能與描述符和反應(yīng)條件相關(guān)聯(lián),提供內(nèi)推的可能性,在某些情況下還可外推模型,以確定未經(jīng)測試的催化劑的性能(圖7d),實(shí)現(xiàn)節(jié)省時(shí)間和資源,并確保了更大覆蓋面。
雖然經(jīng)典的ML算法具有更強(qiáng)的預(yù)測能力,但它們通常是具有黑箱性質(zhì),對相關(guān)催化系統(tǒng)的合理化作用微乎其微。而因果分析是通過不斷迭代的可解釋ML方法,其能夠很好地解釋催化系統(tǒng)。該方法與模型無關(guān),只根據(jù)輸入變量對目標(biāo)變量的貢獻(xiàn)(圖7e)按其重要性排序。此外,還可以結(jié)合實(shí)驗(yàn)驗(yàn)證的數(shù)據(jù)用于模型的再訓(xùn)練,以改進(jìn)目標(biāo)變量預(yù)測,并提出更可靠的實(shí)驗(yàn)改進(jìn)方案(圖7f)。
機(jī)器學(xué)習(xí)大綜述!Nature Catalysis:數(shù)據(jù)科學(xué)加速催化研究進(jìn)程
圖7 數(shù)據(jù)科學(xué)與實(shí)驗(yàn)的結(jié)合特點(diǎn)
對于未來,將深度學(xué)習(xí)算法與先進(jìn)表征技術(shù)相結(jié)合,將使實(shí)驗(yàn)人員能夠以更快的速度揭示催化材料的復(fù)雜性,并具有預(yù)測能力。與人工圖像分析相比,此類算法能減少人為偏差,并提升效率約2000倍(圖8a)。而XAFS和XANES產(chǎn)生的復(fù)雜數(shù)據(jù)集對傳統(tǒng)分析方法提出了挑戰(zhàn),在此類海量數(shù)據(jù)集上訓(xùn)練的深度學(xué)習(xí)算法可以破譯活性物種局部環(huán)境的定量結(jié)構(gòu)信息,包括它們與吸附物的相互作用,并揭示復(fù)雜的反應(yīng)動(dòng)力學(xué)(圖8b)。
機(jī)器學(xué)習(xí)大綜述!Nature Catalysis:數(shù)據(jù)科學(xué)加速催化研究進(jìn)程
圖8 實(shí)驗(yàn)與數(shù)據(jù)科學(xué)結(jié)合的展望
文獻(xiàn)信息
Suvarna, M., & Pérez-Ramírez, J. (2024). Embracing data science in catalysis research. Nature Catalysis, 1-12.
doi:10.1038/s41929-024-01150-3

原創(chuàng)文章,作者:wang,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.xiubac.cn/index.php/2024/05/20/ea8039c566/

(0)

相關(guān)推薦

元朗区| 峨边| 南部县| 彭泽县| 青州市| 岳普湖县| 康乐县| 潜山县| 定襄县| 南江县| 内黄县| 曲水县| 陕西省| 克山县| 五寨县| 云和县| 鞍山市| 尼勒克县| 昆明市| 济阳县| 会昌县| 顺义区| 田林县| 乌海市| 廉江市| 洮南市| 大埔县| 黔江区| 芷江| 衢州市| 方正县| 上犹县| 大宁县| 莎车县| 宜兰市| 丹巴县| 和林格尔县| 木兰县| 通辽市| 高安市| 上虞市|