研究背景
對(duì)于實(shí)際應(yīng)用,分子通常以聚集態(tài)存在,因此預(yù)測(cè)分子在形成聚集體時(shí)的性能(如聚集誘導(dǎo)發(fā)光 (AIE) 或聚集熒光猝滅 (ACQ))具有重要價(jià)值。AIE是2001年首次提出的概念,用于描述聚集體形成時(shí)分子種類(lèi)的異常發(fā)光增強(qiáng),具有AIE行為的發(fā)光體被稱(chēng)為AIEgens。
設(shè)計(jì)新AIEgen的關(guān)鍵是從其分子結(jié)構(gòu)預(yù)測(cè)AIE特性,這需要對(duì)AIE現(xiàn)象有高度的結(jié)構(gòu)-特性理解??紤]到AIE現(xiàn)象的多重因素和背后機(jī)制的復(fù)雜性,機(jī)器學(xué)習(xí)(ML)極有可能提高目前對(duì)AIE的理解,為AIE的性質(zhì)預(yù)測(cè)做出貢獻(xiàn)。通過(guò)人工智能 (AI) 系統(tǒng)精確預(yù)測(cè)AIE特性,即使是沒(méi)有經(jīng)驗(yàn)的AIE研究人員也能夠在未知的分子空間中設(shè)計(jì)具有AIE特性的分子結(jié)構(gòu)。
在此,新加坡國(guó)立大學(xué)劉斌教授、王笑楠教授等人首次建立了一個(gè)包含文獻(xiàn)報(bào)道的356個(gè)AIE/ACQ分子的數(shù)據(jù)庫(kù)。通過(guò)訓(xùn)練,這些機(jī)器學(xué)習(xí) (ML) 模型可以建立結(jié)構(gòu)-特性關(guān)系,從而實(shí)現(xiàn)對(duì)AIE/ACQ特性的快速預(yù)測(cè)。作者提出了一種多模態(tài)方法,通過(guò)比較和設(shè)計(jì)多種預(yù)測(cè)方法開(kāi)發(fā)了集成策略。首先,同時(shí)考慮多個(gè)分子描述符,通過(guò)降維提取主要特征合成多模態(tài)特征。然后,設(shè)計(jì)并比較了幾種最先進(jìn)的方法以分析不同方法的優(yōu)點(diǎn)。最后,集成策略綜合了多種方法的優(yōu)點(diǎn),得到最終的預(yù)測(cè)結(jié)果。三個(gè)新設(shè)計(jì)的分子進(jìn)一步驗(yàn)證了這種方法在未知分子空間中的可靠性,獲得了模型預(yù)測(cè)和實(shí)驗(yàn)結(jié)果之間的合理一致性。
結(jié)果表明ML可以成為預(yù)測(cè)聚集態(tài)分子性質(zhì)的有力工具,從而加速固態(tài)光學(xué)材料的發(fā)展。該成果以“Machine-Learning-Assisted Accurate Prediction of Molecular Optical Properties upon Aggregation”為題發(fā)表在Advanced Science(IF=16.806)上。
圖1. ML輔助AIE/ACQ特性預(yù)測(cè)和新設(shè)計(jì)分子的實(shí)驗(yàn)驗(yàn)證流程圖
1. 整體ML輔助預(yù)測(cè)流程
作者在文獻(xiàn)中收集到356個(gè)分子用于模型訓(xùn)練,然后進(jìn)行實(shí)驗(yàn)分析以證明這些方法的有效性。首先使用分子描述符來(lái)表征分子,這是分子ML中的一個(gè)關(guān)鍵問(wèn)題。在這項(xiàng)工作中,兩類(lèi)分子描述符被用作預(yù)測(cè)分子性質(zhì)的不同模式,即定量描述符和定性描述符。通過(guò)這種方式,可以同時(shí)考慮分子的定量和定性特性。然后,提出了五種流行的ML方法來(lái)預(yù)測(cè)分子是否具有AIE特性,包括邏輯回歸 (LR)、K-最近鄰(KNN)、梯度提升 (GB)、隨機(jī)森林 (RF) 和多層感知器 (MLP)。
作者還提出了一種融合表決策略來(lái)整合不同方法和模式的結(jié)果,并將整合的結(jié)果作為最終的預(yù)測(cè)輸出。為了比較和評(píng)估算法的有效性,采用了一些包括準(zhǔn)確性、曲線(xiàn)下面積 (AUC) 和F1分?jǐn)?shù)在內(nèi)的評(píng)估指標(biāo)。在實(shí)驗(yàn)中,十倍交叉驗(yàn)證用于評(píng)估具有不同描述符的不同方法,在訓(xùn)練集上使用了五重交叉驗(yàn)證來(lái)選擇超參數(shù)。實(shí)驗(yàn)結(jié)果表明,融合表決策略比單一分類(lèi)模型更穩(wěn)健。
2. 單模態(tài)與多模態(tài)訓(xùn)練
基于定性和定量描述符的不同方法的單獨(dú)測(cè)試策略稱(chēng)為單模態(tài)訓(xùn)練,其中定性描述符考慮5種指紋并編碼2048位長(zhǎng)度,定量描述符使用108維特征。作者展示了基于多模態(tài)描述符的五種不同方法的單模態(tài)和多模態(tài)的平均結(jié)果和集成方法的混雜矩陣,多模態(tài)是指將兩類(lèi)描述符組合成一個(gè)特征向量進(jìn)行訓(xùn)練。首先使用主成分分析 (PCA) 對(duì)2048維指紋特征進(jìn)行降維,目的是使指紋和定量描述符具有更緊密的維度,避免專(zhuān)注于一種模式。經(jīng)過(guò)這個(gè)過(guò)程,得到了356維特征,但保留了原始數(shù)據(jù)的所有信息。此外,還對(duì)定量描述符進(jìn)行z-score標(biāo)準(zhǔn)化,以便它們與PCA無(wú)量綱數(shù)據(jù)具有相同的尺度。因此,對(duì)于多模態(tài)數(shù)據(jù),特征維度為464 (356 + 108)。
圖2. 基于多模態(tài)策略的不同方法的結(jié)果
結(jié)果顯示,多模態(tài)預(yù)測(cè)普遍優(yōu)于單模態(tài)。其中,LR算法的結(jié)果比較接近,因?yàn)榫€(xiàn)性回歸方法對(duì)特征的擬合有限。當(dāng)數(shù)據(jù)為非線(xiàn)性時(shí),很難實(shí)現(xiàn)更大的改進(jìn)及處理數(shù)據(jù)不平衡問(wèn)題。KNN的結(jié)果沒(méi)有顯著改善,這是因?yàn)榇嬖诰S數(shù)災(zāi)難問(wèn)題,對(duì)少數(shù)類(lèi)別的預(yù)測(cè)精度較低。GB、RF和MLP的結(jié)果得到了明顯提升,因?yàn)樾畔⒇S富的特征在復(fù)雜方法中發(fā)揮了更大的作用。GB在三個(gè)訓(xùn)練特征集上得到了完全正確的結(jié)果,但在測(cè)試集上的結(jié)果不如RF,這進(jìn)一步說(shuō)明GB在訓(xùn)練集上存在過(guò)擬合。RF算法在Daylight指紋+定量描述符的測(cè)試集中取得了最佳性能,這表明兩種模態(tài)特征的融合提高了分類(lèi)空間的可分離性。MLP的結(jié)果是Daylight指紋中最好的,與單模態(tài)結(jié)果類(lèi)似??梢钥闯觯珼aylight指紋的特征編碼方式更適合本文數(shù)據(jù),與單模態(tài)相比,具有多模態(tài)數(shù)據(jù)的集成方法有了明顯的改進(jìn)。
3. 模型預(yù)測(cè)的實(shí)驗(yàn)驗(yàn)證
為了驗(yàn)證模型預(yù)測(cè)新分子結(jié)構(gòu)的能力,作者設(shè)計(jì)了三種潛在的與任何報(bào)道的不同結(jié)構(gòu)的AIEgens。根據(jù)已知的AIE機(jī)制,化合物1和2應(yīng)該表現(xiàn)出相似的AIE/ACQ 特性。然而,模型預(yù)測(cè)化合物1是ACQ分子,而2是AIE分子。滴定結(jié)果表明,化合物1和2分別顯示出ACQ和AIE特性,與ML預(yù)測(cè)一致。接下來(lái),用羰基取代了2的二氰基得到了化合物3。很明顯,化合物2的三元氨基環(huán)在其AIE行為中起著至關(guān)重要的作用,因此推斷化合物3也應(yīng)具有AIE特性,但ML模型預(yù)測(cè)化合物3是 ACQ分子。為了驗(yàn)證預(yù)測(cè),作者合成了化合物3并進(jìn)行了相同的AIE特性研究,結(jié)果表明化合物3是ACQ分子,這表明模型在預(yù)測(cè)優(yōu)于人類(lèi)感知的新結(jié)構(gòu)方面具有出色的準(zhǔn)確性。此外,只有多模態(tài)集成和單模態(tài)RF的預(yù)測(cè)結(jié)果是完全正確的,且單模態(tài)RF在測(cè)試集上的結(jié)果不如多模態(tài)集成。這表明多模態(tài)集成更穩(wěn)健,對(duì)于不同的數(shù)據(jù)類(lèi)型同時(shí)具有預(yù)測(cè)和探索能力。
圖3. 模型預(yù)測(cè)新分子結(jié)構(gòu)能力的實(shí)驗(yàn)驗(yàn)證
作者基于從文獻(xiàn)中收集的包含356個(gè)AIE/ACQ分子的數(shù)據(jù)庫(kù),使用5種指紋和定量描述符等小分子的各種編程語(yǔ)言表達(dá)來(lái)構(gòu)建ML模型,預(yù)測(cè)不同熒光團(tuán)的AIE/ACQ特性。其中,所提出的多模態(tài)集成方法實(shí)現(xiàn)了最佳和最穩(wěn)健的性能。該策略考慮了多個(gè)描述符的特性,并結(jié)合了多種方法的推理優(yōu)勢(shì)。因此,它不僅可以學(xué)習(xí)現(xiàn)有的分子結(jié)構(gòu),還具有預(yù)測(cè)未知結(jié)構(gòu)的能力。該ML模型在預(yù)測(cè)全新分子方面的可靠性得到了進(jìn)一步證明,證明了可以通過(guò)結(jié)合ML方法和實(shí)驗(yàn)分析來(lái)幫助AIEgen設(shè)計(jì)。
Machine-Learning-Assisted Accurate Prediction of Molecular Optical Properties upon Aggregation, Advanced Science 2021. DOI: 10.1002/advs.202101074
https://onlinelibrary.wiley.com/doi/10.1002/advs.202101074
原創(chuàng)文章,作者:科研小搬磚,如若轉(zhuǎn)載,請(qǐng)注明來(lái)源華算科技,注明出處:http://www.xiubac.cn/index.php/2023/10/11/db87871473/