面向材料性質(zhì)預(yù)測(cè)的機(jī)器學(xué)習(xí)模型以很小的計(jì)算成本來得到與密度泛函理論近似的計(jì)算結(jié)果,這加速了新材料發(fā)現(xiàn)的進(jìn)程。為了彌合理論和實(shí)驗(yàn)之間的差距,機(jī)器學(xué)習(xí)的預(yù)測(cè)結(jié)果需要以可解釋的化學(xué)規(guī)則的形式提煉出來,供科學(xué)家使用,從而來進(jìn)一步設(shè)計(jì)新材料。在此,多倫多大學(xué)Edward H. Sargent團(tuán)隊(duì)和渥太華大學(xué)Isaac Tamblyn團(tuán)隊(duì)合作提出了一種將基于進(jìn)化算法的搜索與機(jī)器學(xué)習(xí)代理模型相結(jié)合的框架(Deep Adaptive Regressive Weighted Intelligent Network,DARWIN),可以有效利用機(jī)器學(xué)習(xí)的解釋性指導(dǎo)材料的發(fā)現(xiàn)。(1)機(jī)器學(xué)習(xí)預(yù)測(cè)代理模型在代理模型中,作者主要關(guān)注光電材料的應(yīng)用,因此,作者聚焦于材料的熱穩(wěn)定性(energy above the hull)、帶隙和帶隙的類型(direct/indirect),開發(fā)了3個(gè)預(yù)測(cè)模型。熱穩(wěn)定性和帶隙類型的數(shù)據(jù)來源于Materials Project數(shù)據(jù)庫,分別包含117000和45000個(gè)數(shù)據(jù)點(diǎn);帶隙的數(shù)據(jù)來源于開源的HSE06數(shù)據(jù)庫,包含超過10000個(gè)材料的HSE06帶隙數(shù)據(jù)。3個(gè)代理模型均使用了圖神經(jīng)網(wǎng)絡(luò)框架,并由MatDeepLearn包和PyTorch框架聯(lián)合搭建(原子表示為圖的節(jié)點(diǎn),兩個(gè)原子之間的空間信息表示圖的邊,如圖1(a)所示),將得到的圖利用卷積層和池化層實(shí)現(xiàn)材料的特征提取。為了提高代理模型的精度,作者采用遷移學(xué)習(xí)的策略,即在OQMD數(shù)據(jù)庫中的500k的形成能數(shù)據(jù)上訓(xùn)練得到一個(gè)源模型,并通過微調(diào)的方法訓(xùn)練本文中的三個(gè)目標(biāo)代理模型。在熱穩(wěn)定性和帶隙預(yù)測(cè)中,經(jīng)過遷移學(xué)習(xí)得到的模型誤差要比從頭訓(xùn)練模型的誤差低;在帶隙類型的預(yù)測(cè)中,經(jīng)過遷移學(xué)習(xí)得到的模型的精度要比從頭訓(xùn)練模型的精度高。此外,由于帶隙類型的數(shù)據(jù)不平衡,作者采用了欠采樣(under-sampling)的方法來平衡直接帶隙和間接帶隙數(shù)據(jù)集,所得到的性能對(duì)比如圖1(b-d)所示。圖1中,r-MEGNet和r-CGCNN表示使用優(yōu)化結(jié)構(gòu)的數(shù)據(jù)集上訓(xùn)練的MEGNet和CGCNN模型,將其性能視為baseline性能。圖1.(a)圖神經(jīng)網(wǎng)絡(luò)架構(gòu);(b)預(yù)測(cè)熱穩(wěn)定性的性能對(duì)比;(c)預(yù)測(cè)帶隙的性能對(duì)比;(d)預(yù)測(cè)帶隙類型的性能對(duì)比(2)進(jìn)化算法(Evolutionary algorithm,EA)搜索模型EA建立在三個(gè)代理模型的基礎(chǔ)上,用于快速搜索具有特定性質(zhì)的材料,如圖2所示。EA可以分為五個(gè)步驟:初始化一個(gè)主要的候選材料集、使用代理模型進(jìn)行預(yù)測(cè)、評(píng)估這些預(yù)測(cè)的性質(zhì)與目標(biāo)性質(zhì)的差距、選擇合適的材料(適者生存)、突變選擇的個(gè)體(替換一定比例的元素)產(chǎn)生新的候選集。突變過程是采用替換具有相同氧化態(tài)的元素實(shí)現(xiàn)的,以保證結(jié)構(gòu)的電中性。EA依靠代理模型來預(yù)測(cè)感興趣的材料性質(zhì),并評(píng)估候選集合的適合性。實(shí)驗(yàn)表明,突變策略本身就足以搜索廣闊化學(xué)空間,來得到最佳的材料組成。DARWIN通過確定化學(xué)特征和規(guī)則來提供對(duì)材料性質(zhì)的物理和化學(xué)見解,這些信息可以為實(shí)驗(yàn)科學(xué)家設(shè)計(jì)新材料提供參考。在EA模型運(yùn)行過程中,所有候選物都被分為兩類:滿足目標(biāo)性質(zhì)的材料和不滿足目標(biāo)性質(zhì)的材料。這些材料都使用新的材料描述符來描述,如對(duì)于AxByXz化合物,采用B位點(diǎn)和X位點(diǎn)原子的電負(fù)性的統(tǒng)計(jì)值,以及各類孤立的元素性質(zhì)、元素的HOMO-LUMO能級(jí)以及能帶中心等。為此,作者訓(xùn)練了一個(gè)基于隨機(jī)森林的分類模型,以獲得描述符對(duì)模型的重要性。為了證明DARWIN的有效性和通用性,作者在以下3個(gè)案例中進(jìn)行了實(shí)踐。作者嘗試將研究直接帶隙和間接帶隙的材料體系擴(kuò)展至所有穩(wěn)定的p-block半導(dǎo)體。DARWIN發(fā)現(xiàn),化合物包含高原子質(zhì)量的p-block元素更容易表現(xiàn)出直接帶隙(即元素具有更小的熔點(diǎn)和大的共價(jià)半徑),這已經(jīng)被相關(guān)文獻(xiàn)所報(bào)道;類似地,LUMO能級(jí)越小的元素會(huì)導(dǎo)致整個(gè)化合物p軌道的價(jià)電子更多,化合物也更容易表現(xiàn)出直接帶隙,也更加穩(wěn)定。此外,作者還觀察到隨著元素平均電負(fù)性的增加,材料趨向于更加穩(wěn)定的直接帶隙材料,如圖3所示。利用這些設(shè)計(jì)規(guī)則,作者修改了一些廣泛用于半導(dǎo)體和催化應(yīng)用的間接帶隙材料,使之成為直接帶隙材料。為了測(cè)試DARWIN衍生的規(guī)則是否有更廣泛的應(yīng)用,作者展示了一些設(shè)計(jì)的通過陽離子修飾和混合陰離子的化合物,如表1所示。圖3. DARWIN提供的化學(xué)見解。(a)用于設(shè)計(jì)直接帶隙材料的化學(xué)可解釋性;(b)用于設(shè)計(jì)直接帶隙、穩(wěn)定的紫外發(fā)光材料的化學(xué)可解釋性表1. 通過對(duì)間接帶隙材料進(jìn)行改性與設(shè)計(jì),得到的直接帶隙材料(2)設(shè)計(jì)具有直接帶隙的、穩(wěn)定的、紫外發(fā)光材料接著,作者使用DARWIN來解決一個(gè)更為復(fù)雜的多目標(biāo)材料發(fā)現(xiàn)問題,即發(fā)現(xiàn)具有直接帶隙的、穩(wěn)定的、紫外發(fā)光材料(帶隙范圍為3-4 eV),化合物的搜索空間擴(kuò)展至所有的三元鹵素化合物。作者發(fā)現(xiàn),B位點(diǎn)(化合物中的第二個(gè)金屬元素)和X位點(diǎn)(陰離子)的電負(fù)性的差異對(duì)模型具有重要的影響,進(jìn)一步分析發(fā)現(xiàn)當(dāng)一個(gè)材料屬于具有直接帶隙的、穩(wěn)定的、紫外發(fā)光的材料時(shí),這個(gè)電負(fù)性的差異在0.84-1.5之間。這表明這個(gè)特定的范圍是最佳的電負(fù)性差異窗口(OEDW)。利用OEDW,作者實(shí)驗(yàn)合成了具有代表性、且滿足目標(biāo)性質(zhì)的K2CuCl3和K2CuBr3,如圖4所示。作者還對(duì)K2CuCl3進(jìn)行了第一性原理計(jì)算(優(yōu)化結(jié)構(gòu)采用GGA-xc泛函,電子結(jié)構(gòu)采用HSE06泛函),發(fā)現(xiàn)K2CuCl3具有直接帶隙,且PDOS揭示了鹵素元素對(duì)價(jià)帶頂具有重要的貢獻(xiàn),而B位點(diǎn)主要占據(jù)了導(dǎo)帶底,與DARWIN所揭示的化學(xué)見解高度吻合。表2是作者依據(jù)化學(xué)可解釋性所設(shè)計(jì)的紫外發(fā)光材料。圖4. K2CuX3的實(shí)驗(yàn)與計(jì)算結(jié)果表1. 設(shè)計(jì)的穩(wěn)定、具有直接帶隙的紫外發(fā)光材料(3)設(shè)計(jì)具有直接帶隙的、穩(wěn)定的、紅外發(fā)光的鈣鈦礦材料為了測(cè)試DARWIN的通用性,作者進(jìn)一步設(shè)計(jì)具有直接帶隙的、穩(wěn)定的、紅外發(fā)光的鈣鈦礦材料(聚焦于串聯(lián)太陽能電池,帶隙為1.2 eV)。作者發(fā)現(xiàn),化合物中元素的熔點(diǎn)的和與元素周期表中最大行之商,對(duì)搜索結(jié)果有負(fù)面的影響,如圖5所示。也就是說,為了得到具有1.2 eV的帶隙值,元素盡可能選擇重金屬,這也與之前文獻(xiàn)報(bào)道的(MAPbI3和CsPbI3具有小的帶隙)結(jié)果一致。從統(tǒng)計(jì)意義上來說,元素的熔點(diǎn)和p軌道的價(jià)電子數(shù)分別與紅外發(fā)光的材料呈現(xiàn)負(fù)的相關(guān)性和正的相關(guān)性。這些可解釋性準(zhǔn)則也可以用來修飾化合物,表3列出了一些按照DARWIN解釋規(guī)則設(shè)計(jì)的鈣鈦礦化合物。圖5. 用于設(shè)計(jì)直接帶隙、穩(wěn)定的紅外發(fā)光鈣鈦礦材料的化學(xué)可解釋性表3. 設(shè)計(jì)的穩(wěn)定、具有直接帶隙的紅外發(fā)光鈣鈦礦材料這項(xiàng)工作提出了將機(jī)器學(xué)習(xí)預(yù)測(cè)代理模型、進(jìn)化算法和化學(xué)可解釋性聯(lián)用的材料設(shè)計(jì)框架DARWIN,并在設(shè)計(jì)直接帶隙材料、穩(wěn)定的紫外發(fā)光材料和紅外發(fā)光鈣鈦礦材料的案例中證明了DARWIN的有效性和通用性。最后,作者展示了DARWIN產(chǎn)生的化學(xué)規(guī)則如何在統(tǒng)計(jì)意義上更加健壯,并適用于更加廣泛的應(yīng)用(如紫外鹵化物鈣鈦礦的設(shè)計(jì)等)。Choubisa, H., Todorovi?, P., Pina, J.M. et al. Interpretable discovery of semiconductors with machine learning. npj Comput Mater 9, 117 (2023).https://doi.org/10.1038/s41524-023-01066-9 點(diǎn)擊閱讀原文,報(bào)名計(jì)算培訓(xùn)!
原創(chuàng)文章,作者:計(jì)算搬磚工程師,如若轉(zhuǎn)載,請(qǐng)注明來源華算科技,注明出處:http://www.xiubac.cn/index.php/2023/10/31/237ab53b5f/