国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

準(zhǔn)確率達100%,「人機交互」機器學(xué)習(xí),驅(qū)動有機反應(yīng)精確原子映射研究

準(zhǔn)確率達100%,「人機交互」機器學(xué)習(xí),驅(qū)動有機反應(yīng)精確原子映射研究

編輯?| X

原子到原子映射(Atom-to-atom Mapping,AAM)是識別化學(xué)反應(yīng)前后分子中每個原子位置的任務(wù),這對于理解反應(yīng)機理非常重要。

近年來,越來越多的機器學(xué)習(xí)模型用于逆合成和反應(yīng)結(jié)果預(yù)測,這些模型的質(zhì)量高度依賴于反應(yīng)數(shù)據(jù)集中 AAM 的質(zhì)量。雖然有一些算法使用圖論或無監(jiān)督學(xué)習(xí)來標(biāo)記反應(yīng)數(shù)據(jù)集的 AAM,但現(xiàn)有方法是基于子結(jié)構(gòu) alignments 而不是化學(xué)知識來映射原子。

在此,來自韓國首爾大學(xué)(Seoul National University)和韓國科學(xué)技術(shù)院(KAIST)的研究團隊,提出了一種 ML 模型——LocalMapper,可通過人機回圈(human-in-the-loop)機器學(xué)習(xí)從化學(xué)家標(biāo)記的反應(yīng)中學(xué)習(xí)正確的 AAM。

研究表明,LocalMapper 通過僅從整個數(shù)據(jù)集中 2% 的人類標(biāo)記反應(yīng)中學(xué)習(xí),就能以 98.5% 的校準(zhǔn)精度預(yù)測 50 K 反應(yīng)的 AAM。更重要的是,LocalMapper 給出的可信預(yù)測覆蓋了 50?K 反應(yīng)中的 97%,對 3,000 個隨機采樣的反應(yīng)顯示出 100% 的準(zhǔn)確率。

在分布外(Out-of-distribution,OOD)實驗中,LocalMapper 性能優(yōu)于其他現(xiàn)有方法。研究人員期望 LocalMapper 可用于生成更精確的反應(yīng) AAM,并提高未來基于 ML 的反應(yīng)預(yù)測模型的質(zhì)量。

相關(guān)研究以《Precise atom-to-atom mapping for organic reactions via human-in-the-loop machine learning》為題,于 2024 年 3 月 13 日發(fā)布在《Nature Communications》上。

準(zhǔn)確率達100%,「人機交互」機器學(xué)習(xí),驅(qū)動有機反應(yīng)精確原子映射研究

論文鏈接:https://www.nature.com/articles/s41467-024-46364-y

AAM?在化學(xué)研究中的重要性

原子到原子映射 (AAM) 通過識別反應(yīng)物原子和產(chǎn)物原子之間的一對一映射,在準(zhǔn)備反應(yīng)數(shù)據(jù)中發(fā)揮著至關(guān)重要的作用。高質(zhì)量的 AAM 可以快速識別給定化學(xué)反應(yīng)的反應(yīng)中心,這對于許多已開發(fā)的化學(xué)反應(yīng)分析和預(yù)測方法至關(guān)重要。

AAM 廣泛使用的應(yīng)用之一是構(gòu)建縮合反應(yīng)圖 (CGR)。此外,AAM 還可以自動識別反應(yīng)中心并從數(shù)據(jù)庫中提取反應(yīng)模板,用于預(yù)測反應(yīng)結(jié)果和單步逆合成機器學(xué)習(xí)模型。由于這些應(yīng)用高度依賴于反應(yīng)數(shù)據(jù)的 AAM,因此 AAM 的質(zhì)量極大地影響機器學(xué)習(xí)模型的性能。隨著下游模型數(shù)量的不斷增加,為反應(yīng)數(shù)據(jù)集構(gòu)建高質(zhì)量的 AAM 成為確保反應(yīng)預(yù)測模型質(zhì)量的緊迫任務(wù)。

現(xiàn)有的 AAM 識別方法通??煞譃榛谝?guī)則的和基于 ML 的方法。盡管比以前的方法準(zhǔn)確度更高,但 AAM 需要 100% 的完美準(zhǔn)確度,因為反應(yīng)數(shù)據(jù)中的缺陷將在下游反應(yīng)預(yù)測模型中被放大。然而,目前還沒有可靠的方法來檢測可能錯誤預(yù)測的 AAM,這使得預(yù)測中的錯誤難以識別。

此外,盡管現(xiàn)有的基于 ML 的無監(jiān)督方法比基于規(guī)則的方法要快得多,并且適用于更廣泛的反應(yīng),但在不知道正確的 AAM 的情況下訓(xùn)練模型可能會導(dǎo)致意外錯誤,即使對于簡單的反應(yīng)也是如此。

三大重要突破

在此,研究人員通過 human-in-the-loop 機器學(xué)習(xí)提出了一種精確的基于圖的 AAM 模型,名為 LocalMapper。

該研究的重要突破體現(xiàn)在以下三個方面:

  • 所提出的基于知識的不確定性識別允許對 ML 模型預(yù)測進行快速化學(xué)感知驗證,為 3,000 個隨機采樣的置信預(yù)測生成 100% 正確的 AAM。
  • 開發(fā)的模型 LocalMapper 通過從人機循環(huán)機器學(xué)習(xí)生成的高質(zhì)量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)經(jīng)化學(xué)家驗證的 AAM,實現(xiàn)了最先進的 AAM 預(yù)測精度。與現(xiàn)有的基于 ML 的模型 RXNMapper 和 GraphormerMapper 相比,僅標(biāo)記 2% 的反應(yīng),顯示出更好的預(yù)測精度。
  • 在分布外實驗中,LocalMapper 比兩個現(xiàn)有的基于 ML 的 AAM 模型顯示出良好的預(yù)測精度,同時保持置信預(yù)測的 100% 準(zhǔn)確度。

人機循環(huán)機器學(xué)習(xí)框架

為了訓(xùn)練 LocalMapper,研究人員手動標(biāo)記每個反應(yīng)的 AAM,以保證訓(xùn)練模型的反應(yīng)中 AAM 的正確性。由于手動標(biāo)記化學(xué)反應(yīng)的 AAM 非常耗時(每個反應(yīng)通常超過一分鐘),因此在大型數(shù)據(jù)集中標(biāo)記大部分反應(yīng)是不切實際的。因此,引入主動學(xué)習(xí)來僅標(biāo)記一小部分代表性反應(yīng)。

整個工作流程可以分解為以下 5 個步驟:

  1. 隨機采樣:為了初始化主動學(xué)習(xí)過程,從未映射的反應(yīng)數(shù)據(jù)集中隨機采樣 k 個反應(yīng),其中 k 是人類專家一次性標(biāo)記 AAM 的一個可承受的小數(shù)字。

  2. 標(biāo)簽和訓(xùn)練:接下來,手動標(biāo)記采樣的 k 個反應(yīng)的 AAM,并使用這些反應(yīng)來訓(xùn)練所提出的基于圖的模型 LocalMapper,其結(jié)構(gòu)類似于逆合成模型 LocalRetro 和反應(yīng)結(jié)果預(yù)測模型 LocalTransform。從人類繪制的反應(yīng)中提取的反應(yīng)模板用于更新模板庫,該模板庫將用于后續(xù)的不確定性識別。

  3. AAM 預(yù)測:接下來,使用 LocalMapper 來預(yù)測數(shù)據(jù)集中所有反應(yīng)的反應(yīng)物和產(chǎn)物之間的原子相關(guān)性。根據(jù) LocalMapper 預(yù)測的原子-原子相關(guān)性,按照 Schwaller 等人引入的原子映射程序生成每個反應(yīng)的 AAM。

  4. 置信度識別:對于每個預(yù)測反應(yīng)的 AAM,提取反應(yīng)模板來表示其反應(yīng)模式。如果提取的反應(yīng)模板存在于當(dāng)前模板庫中,則該反應(yīng)預(yù)測的 AAM 集合被認(rèn)為是置信預(yù)測,否則是不確定預(yù)測。

  5. 主動采樣:對于從不確定預(yù)測中提取的每個唯一模板,從共享最多反應(yīng)的模板開始對一個反應(yīng)進行采樣,直到采樣到 k 個反應(yīng)。然后,這些反應(yīng)由人類化學(xué)家標(biāo)記,并在下一次迭代中用于訓(xùn)練模型,重復(fù)步驟 2。

從第二次迭代開始,研究人員使用半監(jiān)督學(xué)習(xí)來訓(xùn)練模型,從每個唯一驗證的反應(yīng)模板的置信預(yù)測中采樣 100 個反應(yīng),以提高模型的穩(wěn)健性。這些采樣反應(yīng)按 9:1 的比例分為訓(xùn)練集和驗證集,以防止過度擬合。

準(zhǔn)確率達100%,「人機交互」機器學(xué)習(xí),驅(qū)動有機反應(yīng)精確原子映射研究

圖 1:在生成逆合成反應(yīng)模板和基于化學(xué)知識推導(dǎo)反應(yīng)機制方面,獲取正確的原子間映射 (AAM) 的重要性。(來源:論文)
LocalMapper

為了預(yù)測反應(yīng)中反應(yīng)物和產(chǎn)物之間的 AAM,研究人員設(shè)計了一個基于圖的模型,稱為 LocalMapper,以了解反應(yīng)物中的每個原子重新定位到產(chǎn)物中的原子的概率。

與之前的逆合成模型 LocalRetro 和反應(yīng)結(jié)果預(yù)測 LocalTransform 類似,使用圖來表示分子,以原子為節(jié)點,鍵為邊,并通過反應(yīng)中原子的局部和全局特征來學(xué)習(xí) AAM 通過消息傳遞神經(jīng)網(wǎng)絡(luò)和注意力機制。

準(zhǔn)確率達100%,「人機交互」機器學(xué)習(xí),驅(qū)動有機反應(yīng)精確原子映射研究

圖 2:使用所提出的模型 LocalMapper 進行 AAM 的人機循環(huán)機器學(xué)習(xí)的總體方案。(來源:論文)

首先,研究人員使用 3 個消息傳遞層對每個原子的局部化學(xué)環(huán)境進行編碼,并通過 3 個多頭交叉注意塊根據(jù)反應(yīng)物的原子特征更新產(chǎn)物中的原子特征。在反應(yīng)物和產(chǎn)物之間的每個原子的特征充分傳達后,通過單頭注意力塊計算產(chǎn)物和反應(yīng)物之間的 AAM 相關(guān)性。

使用 Softmax 函數(shù)對注意力分?jǐn)?shù)進行歸一化后,估計反應(yīng)物中的每個原子與產(chǎn)物中的每個原子是相同原子的概率。按照 RXNMapper 中引入的原子映射程序,使用生成的概率從最高概率到最低概率識別從產(chǎn)物到反應(yīng)物的 AAM。

100% 預(yù)測準(zhǔn)確率

總之,研究人員提出了一種基于圖的 ML 模型 LocalMapper,以通過人機循環(huán)機器學(xué)習(xí)精確識別大型反應(yīng)數(shù)據(jù)集的 AAM。通過利用專業(yè)知識手動標(biāo)記少量反應(yīng)數(shù)據(jù),訓(xùn)練了人機循環(huán)機器學(xué)習(xí)模型,以精確、自動地標(biāo)記大量具有相似反應(yīng)規(guī)則的反應(yīng)。

表 1:手動檢查反應(yīng) AAM 前后,RXNMapper、GraphormerMapper 和 LocalMapper 在 USPTO-50K 數(shù)據(jù)集上的 AMM 結(jié)果。(來源:論文)

準(zhǔn)確率達100%,「人機交互」機器學(xué)習(xí),驅(qū)動有機反應(yīng)精確原子映射研究

對于公開可用的 USPTO-50K 數(shù)據(jù)集,該模型僅通過學(xué)習(xí) 2% 的化學(xué)家標(biāo)記反應(yīng),就能以 98.5% 的準(zhǔn)確率預(yù)測 AAM。

表 2:RXNMapper、GraphormerMapper 和 LocalMapper 在四個不同源上檢查的手動映射反應(yīng)的 AMM 結(jié)果。(來源:論文)

準(zhǔn)確率達100%,「人機交互」機器學(xué)習(xí),驅(qū)動有機反應(yīng)精確原子映射研究

更重要的是,LocalMapper 自信預(yù)測的數(shù)據(jù)集中 97% 的反應(yīng)的 AAM,表現(xiàn)出 100% 的預(yù)測準(zhǔn)確率。并且在不同的分布外測試集中也觀察到類似的結(jié)果。

研究人員期望所提出的 LocalMapper 可用于為未來的下游反應(yīng)預(yù)測模型提供精確的反應(yīng) AAM,并有利于化學(xué)界了解更多有關(guān)反應(yīng)數(shù)據(jù)集的統(tǒng)計見解。

原創(chuàng)文章,作者:計算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.xiubac.cn/index.php/2024/04/08/c658ede917/

(0)

相關(guān)推薦

额尔古纳市| 永川市| 兴城市| 临沭县| 东源县| 突泉县| 于田县| 龙江县| 襄城县| 曲松县| 宁安市| 青田县| 望江县| 镶黄旗| 格尔木市| 报价| 崇礼县| 潞西市| 武陟县| 柏乡县| 永州市| 二连浩特市| 南宁市| 元朗区| 内乡县| 游戏| 普陀区| 合阳县| 临沭县| 西宁市| 通州区| 广州市| 北海市| 南澳县| 确山县| 关岭| 平昌县| 中江县| 云林县| 陆良县| 故城县|