機(jī)器學(xué)習(xí)(ML)正在對許多研究領(lǐng)域產(chǎn)生影響,在學(xué)習(xí)基于明確定義的規(guī)則或大型高質(zhì)量數(shù)據(jù)集的領(lǐng)域中取得了顯著的成功。相比之下,當(dāng)數(shù)據(jù)集質(zhì)量較低且包含模型未正確捕獲的特征時(shí),預(yù)測效果可能會(huì)比較一般。一些報(bào)道嘗試使用ML來預(yù)測特定反應(yīng)的反應(yīng)條件,似乎只要提供足夠數(shù)量的文獻(xiàn)來構(gòu)建模型就可以獲得準(zhǔn)確預(yù)測。然而,事實(shí)真是如此嗎?
在此,美國伊利諾伊大學(xué)厄巴納-香檳分校Martin D. Burke及韓國基礎(chǔ)科學(xué)研究所(IBS)Bartosz A. Grzybowski教授等人通過案例研究證明,這可能是一種過于樂觀的解釋,即使有大量精心整理的文獻(xiàn)數(shù)據(jù),ML方法可能也不會(huì)比文獻(xiàn)中報(bào)道的普遍反應(yīng)條件的估計(jì)效果好很多。
換句話說,這些ML模型并沒有提供更多的見解,只是提出了最普遍的反應(yīng)條件。而這些反應(yīng)條件本可以通過對文獻(xiàn)案例的簡單統(tǒng)計(jì)獲得,這意味著ML沒有實(shí)現(xiàn)“機(jī)器智能”。具體而言,作者基于精心挑選的>10000篇文獻(xiàn)數(shù)據(jù)庫并以雜環(huán)Suzuki偶聯(lián)反應(yīng)作為案例研究,考慮預(yù)測最適合于雜芳基-雜芳基或芳香基-雜芳基Suzuki偶聯(lián)反應(yīng)給定底物的反應(yīng)條件。
圖1. 預(yù)測問題的公式化和基于文獻(xiàn)的反應(yīng)條件統(tǒng)計(jì)
對于具有完整條件信息的>10000個(gè)反應(yīng)示例,該反應(yīng)似乎提供了足以成功實(shí)現(xiàn) ML預(yù)測的反應(yīng)統(tǒng)計(jì)數(shù)據(jù)。在對鈀的溶劑、堿、溫度和來源進(jìn)行分類后,作者應(yīng)用各種神經(jīng)網(wǎng)絡(luò)方法(前饋和圖卷積)、詞嵌入和正樣本-無標(biāo)簽(PU)學(xué)習(xí)方法來開發(fā)預(yù)測模型。
結(jié)果表明,即使搜索空間僅限于溶劑和堿,ML模型也不能提供對最佳反應(yīng)條件的任何有意義的預(yù)測。在所有情況下,ML的表現(xiàn)并不比文獻(xiàn)提出的普遍性反應(yīng)條件好多少。這些結(jié)果表明,合成化學(xué)中的數(shù)據(jù)受到了非科學(xué)因素的嚴(yán)重影響,例如某些化學(xué)家對某些協(xié)議的主觀偏好,甚至是實(shí)驗(yàn)室中當(dāng)前化學(xué)品的可用性。
因此,作者認(rèn)為,化學(xué)中應(yīng)用ML研究的前進(jìn)道路是使用自動(dòng)化協(xié)議生成標(biāo)準(zhǔn)化的數(shù)據(jù)集,特別是在不同條件下進(jìn)行的多次重復(fù)反應(yīng),從而客觀比較和學(xué)習(xí)好與壞的條件。
圖2. 回歸模型的學(xué)習(xí)結(jié)果
Machine Learning May Sometimes Simply Capture Literature Popularity Trends: A Case Study of Heterocyclic Suzuki–Miyaura Coupling, Journal of the American Chemical Society 2022. DOI: 10.1021/jacs.1c12005
原創(chuàng)文章,作者:v-suan,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.xiubac.cn/index.php/2023/10/14/de939c3dd9/