国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

實現(xiàn)量子化學精度,同時規(guī)避幾何弛豫瓶頸,深度對比學習用于分子性質(zhì)有效預測


實現(xiàn)量子化學精度,同時規(guī)避幾何弛豫瓶頸,深度對比學習用于分子性質(zhì)有效預測

編輯?|?紫羅

數(shù)據(jù)驅(qū)動的深度學習算法可以準確預測高級量子化學分子特性。然而,它們的輸入必須限制在與訓練數(shù)據(jù)集相同的量子化學幾何弛豫水平,從而限制了它們的靈活性。采用替代的經(jīng)濟有效的構象生成方法會引入域偏移(domain-shift)問題,從而降低預測精度。

近日,來自韓國首爾大學的研究人員提出了一種基于深度對比學習的域適應(domain-adaptation)方法,稱為局部原子環(huán)境對比學習(Local Atomic environment Contrastive Learning,LACL)。LACL 通過比較不同的構象生成方法來學習減輕兩種幾何構象之間的分布差異。

研究發(fā)現(xiàn) LACL 形成了一個與域無關的潛在空間,封裝了原子局部原子環(huán)境的語義。LACL 實現(xiàn)了量子化學精度,同時規(guī)避了幾何弛豫瓶頸,可以實現(xiàn)逆向分子工程和大規(guī)模篩選等未來應用場景。該方法也可以從小的有機分子推廣到生物和藥理學分子的長鏈。

該研究以《Deep contrastive learning of molecular conformation for efficient property prediction》為題,于 2023 年 12 月 4 日發(fā)布在《Nature Computational Science》上。

實現(xiàn)量子化學精度,同時規(guī)避幾何弛豫瓶頸,深度對比學習用于分子性質(zhì)有效預測

論文鏈接:https://www.nature.com/articles/s43588-023-00560-w

基于機器學習的優(yōu)化方法,例如強化學習、主動學習和深度生成模型,引起了逆向材料設計和藥物發(fā)現(xiàn)的研究興趣。為了在這些應用中以較低的計算成本快速預測未知分子的量子化學性質(zhì),圖神經(jīng)網(wǎng)絡(GNN)已成為一種流行且成功的模型。

為了有效訓練機器學習模型,已經(jīng)發(fā)布了高質(zhì)量的數(shù)據(jù)集,例如由 134,000 個有機小分子組成的 QM9 數(shù)據(jù)集。

在高通量篩選等大規(guī)模推理場景中,通過 DFT 準備輸入分子幾何結構不僅耗時且收斂成本高,也是使用訓練模型的瓶頸。使用計算效率高的 Merck 分子力場 (MMFF) 優(yōu)化方法或基于 ML 的構象生成模型計算的構象可以被視為替代方案。然而,在這種情況下,ML 模型會遭受域偏移,因為它偏離了通過 DFT 計算的先前學習的訓練數(shù)據(jù)的分布。

實現(xiàn)量子化學精度,同時規(guī)避幾何弛豫瓶頸,深度對比學習用于分子性質(zhì)有效預測

圖示:前人方法與 LACL 方法的分子預測方法比較。(來源:論文)

LACL 專門用于解決分子數(shù)據(jù)中的域偏移問題

在該研究中,研究人員引入了一種基于深度對比學習的局部原子環(huán)境表示學習模型(LACL),專門用于解決分子數(shù)據(jù)中的域偏移問題。LACL 使用計算高效的幾何松弛方法和 DFT 分子幾何數(shù)據(jù)捕獲分子數(shù)據(jù)之間的相似性。通過這種方式,LACL 充分利用了量子化學數(shù)據(jù)的潛力,并繞過了與從頭開始幾何弛豫相關的計算瓶頸。

研究使用 QM9 和 QMugs 分子特性預測基準來驗證模型的領域適應性能。LACL 根據(jù)低保真幾何形狀準確預測分子特性,減少計算成本和推理時間,同時保持量子化學準確性。

在這里,研究人員將術語「幾何域」(geometric domain)定義為分子幾何構象的統(tǒng)計分布,包括通過某些方法生成的原子間距離或三重態(tài)角。在該研究中,研究人員考慮從頭計算方法計算的構象,其中包含現(xiàn)有基準數(shù)據(jù)中存在的初始知識,作為源域。此外,將從計算有效的力場或基于機器學習的構象生成模型獲得的構象視為目標域。主要目標是彌合源域和目標域之間的差距,使模型能夠概括其從源域?qū)W到的知識,以便在目標域中做出準確的預測,盡管域發(fā)生了變化。

實現(xiàn)量子化學精度,同時規(guī)避幾何弛豫瓶頸,深度對比學習用于分子性質(zhì)有效預測

圖示:LACL 模型概述。(來源:論文)

為了捕捉兩個幾何域之間的細微差異,通過修改利用線圖框架的原子線圖神經(jīng)網(wǎng)絡(ALIGNN)模型來顯式地建模三體交互。對比學習方法比較由節(jié)點表示的局部原子環(huán)境的增強,而不是整個分子的增強。LACL是基于 BGRL 框架開發(fā)的。考慮到分子線圖的邊緣特征占用大量計算內(nèi)存,這是一個優(yōu)點。LACL 在整個管道中進行端到端訓練,同時最小化 BGRL 損失和目標屬性預測損失以防止崩潰。這種訓練策略提供了一種有效的方法來學習分子圖表示,以從分子的不同視圖預測特性。

為快速準確地預測量子化學性質(zhì)提供機會

LACL 展示了其利用 DFT 幾何域信息來增強 MMFF 幾何域構象預測的能力。這一改進是有意義的,因為它表明有可能僅通過 MMFF 級弛豫而無需額外優(yōu)化即可實現(xiàn)量子化學精度(小于 1kcalmol^?1 誤差)。這些結果為在精度和計算效率之間尋找最佳構象生成方法提供了機會。

研究人員還評估了 LACL 對開放和緊湊構象異構體的泛化能力。即使考慮到測試分子的數(shù)量較少,結果也與之前 1,706 個測試分子觀察到的趨勢非常吻合,總體而言,LACL 顯示出卓越的預測性能。特別值得注意的是它在開放構象異構體中的強大性能,這是通過操縱原始數(shù)據(jù)獲得的。這個定量實驗表明,在尋找與域無關的表示方面的研究方向可能會擴展到更復雜的系統(tǒng),例如蛋白質(zhì)和多肽。

實現(xiàn)量子化學精度,同時規(guī)避幾何弛豫瓶頸,深度對比學習用于分子性質(zhì)有效預測

圖示:開放和緊湊構象中 LACL 性能的研究。(來源:論文)

為了研究學習到的局部原子環(huán)境(即節(jié)點級嵌入)的含義,研究人員使用 ?t-SNE 來可視化二維空間中這些環(huán)境之間的關系。結果表明,局部原子環(huán)境不太依賴于原子的原子序數(shù),并且具有相似結構特征的原子形成簇,而不是根據(jù)分子本身的屬性進行分組。

實現(xiàn)量子化學精度,同時規(guī)避幾何弛豫瓶頸,深度對比學習用于分子性質(zhì)有效預測

圖示:QMugs20 數(shù)據(jù)集的 LACL 學習曲線。(來源:論文)

在基態(tài)量子化學性質(zhì)的計算中,LACL 方法可以成為最小化復雜分子幾何結構的額外優(yōu)化過程的可行替代方法。生成式人工智能的快速發(fā)展導致了分子構象生成模型的出現(xiàn)。然而,實現(xiàn)相當于 DFT 等從頭開始構象的數(shù)據(jù)分布仍然是一個巨大的挑戰(zhàn),這凸顯了域適應策略的重要性。該研究為快速準確地預測量子化學性質(zhì)提供了機會。

原創(chuàng)文章,作者:計算搬磚工程師,如若轉載,請注明來源華算科技,注明出處:http://www.xiubac.cn/index.php/2024/01/05/defc139847/

(0)

相關推薦

桂平市| 龙井市| 丹巴县| 突泉县| 永平县| 积石山| 洛川县| 嘉峪关市| 平罗县| 从江县| 西林县| 印江| 潍坊市| 武宣县| 长治县| 肥乡县| 德惠市| 沈阳市| 平顶山市| 汉源县| 德令哈市| 沧源| 龙海市| 凤城市| 白城市| 金平| 商河县| 清新县| 保德县| 合江县| 溧水县| 米脂县| 房产| 泸西县| 棋牌| 阿合奇县| 宁津县| 大同县| 齐齐哈尔市| 渭源县| 五华县|