国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

【AI+材料】Nature子刊:基于生成神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)預(yù)測與材料設(shè)計(jì)

【AI+材料】Nature子刊:基于生成神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)預(yù)測與材料設(shè)計(jì)
預(yù)測穩(wěn)定的晶體結(jié)構(gòu)是設(shè)計(jì)高性能材料的重要環(huán)節(jié)。最新研究表明,有效的結(jié)構(gòu)特征表示和生成神經(jīng)網(wǎng)絡(luò)可以創(chuàng)建新的穩(wěn)定結(jié)構(gòu),進(jìn)而用于逆向設(shè)計(jì)和搜索具有特定功能的材料。在此,阿拉巴馬大學(xué)伯明翰分校Cheng-Chien Chen教授,Adam D. Smith教授和Da Yan教授等人在Nature Computational Science發(fā)表Comment文章,剖析了生成式神經(jīng)網(wǎng)絡(luò)在材料設(shè)計(jì)中的最新進(jìn)展,并展望了材料設(shè)計(jì)的未來研究方向。
研究背景
當(dāng)晶體結(jié)構(gòu)確定時,基于量子力學(xué)的第一性原理計(jì)算可以較為精確地確定材料的物理性質(zhì)。然而,對于結(jié)構(gòu)未知的材料,預(yù)測其性質(zhì)需要額外的晶體結(jié)構(gòu)預(yù)測(Crystal structure prediction,CSP)。CSP可以確定在給定壓強(qiáng)和溫度條件下結(jié)構(gòu)的吉布斯自由能最小值,從而發(fā)現(xiàn)在僅給定化學(xué)式(以及單位胞內(nèi)原子數(shù))時的穩(wěn)態(tài)和亞穩(wěn)態(tài)結(jié)構(gòu)。實(shí)現(xiàn)這一任務(wù)需要精確的勢能面計(jì)算和強(qiáng)大的優(yōu)化算法。
典型的CSP任務(wù)通過枚舉成千上萬個可能的結(jié)構(gòu),并執(zhí)行相應(yīng)的能量計(jì)算來找到最穩(wěn)定的結(jié)構(gòu)。對于三元或四元(或更多元)材料,計(jì)算量非常高。因此,大規(guī)模材料發(fā)現(xiàn)仍然具有挑戰(zhàn)性。
最近,生成模型為解決這些挑戰(zhàn)帶來了希望。一旦生成模型訓(xùn)練完成,它們可以比傳統(tǒng)的CSP技術(shù)更快地生成新結(jié)構(gòu)。然而,開發(fā)生成模型是具有挑戰(zhàn)性的,因?yàn)樗枰粋€可逆的表示來將三維(3D)晶體映射到特征空間,以及完成相應(yīng)的反向映射。此外,它還需要一個目標(biāo)數(shù)據(jù)庫,該數(shù)據(jù)庫在統(tǒng)計(jì)上代表感興趣的材料體系。盡管存在這些挑戰(zhàn),最近的一些研究已經(jīng)證明了使用生成神經(jīng)網(wǎng)絡(luò)高效準(zhǔn)確地預(yù)測新的穩(wěn)定晶體結(jié)構(gòu)的可行性。
生成模型
機(jī)器學(xué)習(xí)模型一般可以分為判別模型和生成模型。判別模型專注于預(yù)測數(shù)據(jù)的標(biāo)簽或在特征空間中確定邊界,而生成模型側(cè)重于解釋數(shù)據(jù)是如何生成的,并試圖對數(shù)據(jù)在整個空間中的分布進(jìn)行建模。盡管判別模型可以實(shí)現(xiàn)晶體結(jié)構(gòu)到材料性質(zhì)的直接正向映射,但它們無法像生成模型那樣實(shí)現(xiàn)逆向設(shè)計(jì)(圖1a)。本質(zhì)上,生成模型學(xué)習(xí)數(shù)據(jù)本身的分布,然后從學(xué)習(xí)到的分布中采樣新的數(shù)據(jù)實(shí)例,這使得探索更多樣化的晶體結(jié)構(gòu)成為可能。在逆向設(shè)計(jì)領(lǐng)域,有兩種普遍的生成模型:變分自編碼器(Variational autoencoder,VAE)和生成對抗網(wǎng)絡(luò)(Generative adversarial network,GAN)(圖1b-c)。
生成模型的一個關(guān)鍵點(diǎn)是它們能夠?qū)W(xué)習(xí)到的潛在特征空間中的任何數(shù)據(jù)點(diǎn)映射回其在材料空間中相應(yīng)的晶體結(jié)構(gòu)。在高通量計(jì)算中,生成模型比基于替換元素的枚舉可以提供更好的材料組分和結(jié)構(gòu)多樣性,比傳統(tǒng)的CSP技術(shù)有更好的結(jié)構(gòu)生成效率。
【AI+材料】Nature子刊:基于生成神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)預(yù)測與材料設(shè)計(jì)
圖1. a)  材料性質(zhì)預(yù)測與逆向設(shè)計(jì)的示意圖;b) 變分自編碼器;c) 生成對抗網(wǎng)絡(luò)
VAE由一個編碼器和一個解碼器組成,其訓(xùn)練目標(biāo)是使解碼的數(shù)據(jù)與輸入數(shù)據(jù)之間的重構(gòu)誤差最小化。然而,編碼器不是將輸入編碼為潛在空間中的單個點(diǎn),而是將輸入視為潛在空間上的分布(參數(shù)),然后可以對潛在空間中的新數(shù)據(jù)點(diǎn)進(jìn)行采樣和解碼。編碼器的分布通常選擇正態(tài)分布Nμ,σ)。使用VAE的代表性結(jié)構(gòu)預(yù)測工具包括iMatGen、傅里葉變換晶體特性(Fourier-transformed Crystal Properties,F(xiàn)TCP)框架和約束的晶體深度卷積生成對抗網(wǎng)絡(luò)(Constrained Crystals Deep Convolutional Generative Adversarial Network,CCDCGAN)。
具體地,F(xiàn)TCP增加了一個目標(biāo)學(xué)習(xí)分支,將潛在點(diǎn)映射到目標(biāo)屬性(附帶額外的屬性映射損失)。CCDCGAN使用VAE學(xué)習(xí)從潛在的二維晶體特征到晶體結(jié)構(gòu)的反向映射,然后使用該特征訓(xùn)練GAN以生成新的晶體結(jié)構(gòu)。VAE的訓(xùn)練過程相對容易,并且它提供了比其他生成模型更多樣化的結(jié)構(gòu)。然而,VAE具有輸出有效性低的潛在缺點(diǎn)(即生成的一些結(jié)果可能時無效的),部分原因是因?yàn)榧僭O(shè)了特征空間遵循高斯分布。
GAN采用了博弈論的思想,使用了兩個網(wǎng)絡(luò):生成器G,它將潛在空間中的隨機(jī)變量z轉(zhuǎn)換為生成的樣本Gz);鑒別器D,它區(qū)分樣本是真實(shí)的還是生成的。對GAN進(jìn)行訓(xùn)練,使G最大化D將生成的樣本錯誤分類為真實(shí)樣本的概率(也就是說,G想要盡可能地“欺騙”D),并且D盡可能地區(qū)分真實(shí)樣本和生成樣本。這允許G學(xué)習(xí)真實(shí)數(shù)據(jù)的分布,此外,可以添加另一個網(wǎng)絡(luò)分支來預(yù)測Gz)的性質(zhì),并將此預(yù)測包含在損失函數(shù)中,以產(chǎn)生具有所需性質(zhì)的晶體結(jié)構(gòu),這在CCDCGAN和FTCP框架中都有體現(xiàn)。
CrystalGAN進(jìn)一步利用跨域的GAN從簡單的二元Pd-H和Ni-H結(jié)構(gòu)開始生成復(fù)雜的三元Pa-H-Ni結(jié)構(gòu)。然而,與VAE相比,GAN更難訓(xùn)練,因?yàn)樗赡軙霈F(xiàn)諸如不收斂(模型參數(shù)振蕩并且無法收斂),模式崩潰(生成器產(chǎn)生有限的數(shù)據(jù))和梯度消失(鑒別器非常成功,生成器梯度消失并且沒有學(xué)到任何東西)等問題。因此,總體而言,平衡GAN中的生成器和鑒別器對于防止過擬合至關(guān)重要。
特征表示
通常,材料數(shù)據(jù)庫中的結(jié)構(gòu)以晶體信息文件(CIF)格式存儲,該格式通常用作特征表示的輸入。在連續(xù)潛在特征空間中表示離散晶體結(jié)構(gòu)是使用生成模型進(jìn)行結(jié)構(gòu)預(yù)測的第一步。目前主要有兩種方法:一種是連續(xù)的三維表示,編碼器和解碼器分別使用二維晶體圖重建三維表示;另一種是矩陣表示,將晶格參數(shù)、原子坐標(biāo)和元素性質(zhì)等晶體結(jié)構(gòu)特征分配到矩陣的不同行和列中。
在iMatGen中,首先訓(xùn)練編碼器將三維表示(晶格參數(shù)和原子位置)壓縮成一張圖像,然后解碼器根據(jù)該圖像重建晶體結(jié)構(gòu)。CCDCGAN考慮使用晶格自編碼器的3D像素表示,它首先將原子位置轉(zhuǎn)換為像素網(wǎng)格;像素網(wǎng)格進(jìn)一步轉(zhuǎn)化為一維矢量,編碼成二維晶體圖。在Composition-Conditioned Crystal GAN中,通過構(gòu)建元胞參數(shù)和原子分?jǐn)?shù)坐標(biāo)的二維矩陣表示,利用點(diǎn)云表示大大降低了內(nèi)存需求。FTCP框架通過考慮實(shí)空間和倒空間的特征,使用傅里葉變換的元素性質(zhì)矩陣和米勒指數(shù)來得到二維矩陣。在上述特征表示中,從潛在空間到材料空間的可逆映射是必要的。
除了潛在空間與材料空間之間的可逆性外,結(jié)構(gòu)特征表示原則上還需要具有不變性。由于潛在的晶體對稱群,例如,經(jīng)過晶體軸的平移、旋轉(zhuǎn)或排列的表示應(yīng)該是不變的,這意味著它仍然表示相同的潛在空間數(shù)據(jù)點(diǎn)。然而,實(shí)際上目前的研究仍然缺乏一個完全可逆和不變的方案,應(yīng)該探索其他的晶體特征表示。特征表示的另一個潛在問題涉及反向映射期間保真度的損失。換句話說,當(dāng)一個潛在空間點(diǎn)反向映射回材料空間時,得到的晶體結(jié)構(gòu)與原來的晶體結(jié)構(gòu)不相同。給定的輸入結(jié)構(gòu)在多大程度上可以完全重建,以及重建過程中保真度損失引起的誤差有多大,需要更仔細(xì)地確定。
訓(xùn)練數(shù)據(jù)
目前的生成模型主要使用的數(shù)據(jù)庫包括無機(jī)晶體結(jié)構(gòu)數(shù)據(jù)庫(如Inorganic Crystal Structures Database)和計(jì)算數(shù)據(jù)庫(如Materials Project)。為了確保足夠的結(jié)構(gòu)和元素多樣性,通常使用已知晶體結(jié)構(gòu)中的元素替換或數(shù)據(jù)增強(qiáng)技術(shù)來進(jìn)行額外的高通量計(jì)算,以獲得具有統(tǒng)計(jì)代表性的數(shù)據(jù)分布。
例如,iMatGen中的訓(xùn)練數(shù)據(jù)是通過從Materials Project中獲取了25種V-O化合物,并將這些化合物替換為10981種二元金屬結(jié)構(gòu),進(jìn)而在Materials Project中重新發(fā)現(xiàn)了31個現(xiàn)有V-O結(jié)構(gòu)中的26個,以及40個以前未確定的新結(jié)構(gòu)。CCDCGAN研究了Bi-Se系統(tǒng),而Materials Project數(shù)據(jù)庫只包含17種已知的Bi-Se材料。訓(xùn)練數(shù)據(jù)以類似的方式生成(每個單位晶胞的最大原子數(shù)限制為20,最大晶格常數(shù)限制為10 ?);9810個結(jié)構(gòu)在使用第一性原理優(yōu)化時收斂。Composition-Conditioned Crystal GAN研究了Mg-Mn-O體系。訓(xùn)練數(shù)據(jù)也是通過Materials Project中三元化合物的元素置換生成的,初始數(shù)據(jù)集包含1240個結(jié)構(gòu)和112種組分。
通過在單位晶胞中執(zhí)行旋轉(zhuǎn)和平移操作實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),為每種組分產(chǎn)生了1000個結(jié)構(gòu),從而產(chǎn)生了112000個Mg-Mn-O結(jié)構(gòu)。利用GAN模型創(chuàng)建了9300個獨(dú)特的結(jié)構(gòu)用于高通量計(jì)算,其中發(fā)現(xiàn)了23個新的Mg-Mn-O晶體。這些研究表明,現(xiàn)有的生成模型既能生成真實(shí)材料的結(jié)構(gòu),也能生成新的穩(wěn)定結(jié)構(gòu)。然而,對于給定的材料系統(tǒng),每個生成模型都需要單獨(dú)訓(xùn)練并增加數(shù)據(jù),現(xiàn)有數(shù)據(jù)庫仍然太小,無法開發(fā)適用于所有材料的全面和通用生成模型。
當(dāng)然,訓(xùn)練數(shù)據(jù)的質(zhì)量在決定生成神經(jīng)網(wǎng)絡(luò)的性能方面起著至關(guān)重要的作用,需要有足夠的數(shù)據(jù)(105-106),并且具有較高的結(jié)構(gòu)多樣性(103-104),否則在訓(xùn)練過程中模型可能會產(chǎn)生偏差。除了在開放材料數(shù)據(jù)庫中對已知結(jié)構(gòu)進(jìn)行元素替換之外,數(shù)據(jù)增強(qiáng)和主動學(xué)習(xí)也會有所幫助。傳統(tǒng)的CSP優(yōu)化技術(shù)也可以通過搜索穩(wěn)定和亞穩(wěn)態(tài)結(jié)構(gòu)來幫助緩解生成模型的訓(xùn)練問題。生成模型產(chǎn)生的結(jié)果結(jié)構(gòu)可以反過來作為種子結(jié)構(gòu)在CSP搜索中提供。
最后,要實(shí)現(xiàn)能量以外的屬性逆設(shè)計(jì),需要相應(yīng)的數(shù)據(jù)庫(例如,機(jī)械、電子和熱輸運(yùn)屬性)。例如,F(xiàn)TCP框架試圖瞄準(zhǔn)帶隙和熱電功率等特性。通過高通量密度泛函理論或力場分子動力學(xué)計(jì)算,或通過機(jī)器學(xué)習(xí)模擬,如晶體圖卷積神經(jīng)網(wǎng)絡(luò)(CGCNN),可以緩解相關(guān)屬性數(shù)據(jù)庫的缺乏,一旦確定潛在的晶體結(jié)構(gòu),就可以提供快速的屬性預(yù)測。
結(jié)論與展望
由于現(xiàn)有的材料特征表示主要基于圖像或編碼的潛在特征向量。盡管像CGCNN這樣的網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)出現(xiàn),可以用于從材料到其潛在特征的正向映射以進(jìn)行屬性預(yù)測,但在逆向設(shè)計(jì)中將它們轉(zhuǎn)為3D晶體結(jié)構(gòu)的明確公式仍然是一個懸而未決的問題。盡管在開發(fā)大規(guī)模結(jié)構(gòu)預(yù)測和材料設(shè)計(jì)的未來生成模型方面存在挑戰(zhàn),但與傳統(tǒng)的優(yōu)化技術(shù)相比,這些模型一旦經(jīng)過訓(xùn)練,就可以加快材料發(fā)現(xiàn)。理想情況下,生成模型應(yīng)該能夠解決數(shù)據(jù)數(shù)量有限的小問題的逆向設(shè)計(jì),以及具有許多晶體自由度大的問題。
因此,用更少的訓(xùn)練數(shù)據(jù)或更廣泛的訓(xùn)練組分和結(jié)構(gòu)來展示生成模型是未來研究的重要領(lǐng)域。與此同時,受物理啟發(fā)的模型,許多研究已經(jīng)應(yīng)用圖卷積網(wǎng)絡(luò)來生成有機(jī)分子,如流動和擴(kuò)散模型。測試這些模型是否也適用于晶體結(jié)構(gòu)的逆設(shè)計(jì)將是一件有趣的事情。除了生成模型之外,強(qiáng)化學(xué)習(xí),比如在蒙特卡羅樹搜索中,已經(jīng)被用來發(fā)現(xiàn)具有期望特性的材料結(jié)構(gòu),通過沿著有希望的方向引導(dǎo)結(jié)構(gòu)生長。最后,重要的是要解決機(jī)器學(xué)習(xí)模型是否可以為實(shí)際應(yīng)用提供發(fā)現(xiàn)的假設(shè)材料的可合成性的度量。例如,F(xiàn)TCP通過檢查生成的結(jié)構(gòu)是否存在于實(shí)驗(yàn)無機(jī)晶體結(jié)構(gòu)數(shù)據(jù)庫中來解決可合成性問題。這方面還需要更多的研究。
文獻(xiàn)信息
Yan, D., Smith, A.D. & Chen, CC. Structure prediction and materials design with generative neural networks. Nat Comput Sci (2023).
https://doi.org/10.1038/s43588-023-00471-w

 點(diǎn)擊閱讀原文,報(bào)名計(jì)算培訓(xùn)!


原創(chuàng)文章,作者:計(jì)算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.xiubac.cn/index.php/2023/10/30/be1f3a1c12/

(0)

相關(guān)推薦

乐平市| 鹤岗市| 满城县| 芮城县| 厦门市| 武定县| 平度市| 吴忠市| 宁城县| 红安县| 南开区| 靖宇县| 松原市| 都兰县| 定结县| 铅山县| 曲麻莱县| 淮北市| 丘北县| 汶上县| 遵化市| 苍南县| 金塔县| 永定县| 永川市| 衢州市| 崇义县| 淮南市| 海淀区| 论坛| 夏邑县| 龙井市| 克山县| 麦盖提县| 峨边| 安乡县| 禄劝| 武鸣县| 涡阳县| 攀枝花市| 金坛市|