国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

效率提高四倍,用于擴展分子的精確機器學習力場的有效原子間描述符

效率提高四倍,用于擴展分子的精確機器學習力場的有效原子間描述符

機器學習力場 (MLFF) 技術(shù)正蓬勃發(fā)展。然而,要實現(xiàn)現(xiàn)實分子的預測性 MLFF 模擬,仍有幾個挑戰(zhàn)有待解決,包括:(1) 為非局部原子間相互作用開發(fā)有效的描述符,以及 (2) 降低描述符的維度增強 MLFF 的適用性和可解釋性。

盧森堡大學的研究團隊提出了一種自動化方法來大幅減少原子間描述符特征的數(shù)量,同時保持準確性并提高 MLFF 的效率。研究人員發(fā)現(xiàn)非局部特征(在所研究的系統(tǒng)中原子相隔 15 ?)對于保持 MLFF 對肽、DNA 堿基對、脂肪酸和超分子復合物的整體準確性至關(guān)重要。

有趣的是,減少的描述符中所需的非局部特征的數(shù)量變得與局部原子間特征(小于 5 ?)的數(shù)量相當。這些結(jié)果為構(gòu)建全局分子 MLFF 鋪平了道路,其成本隨系統(tǒng)大小呈線性增長,而不是呈二次方增長。

該研究以「Efficient interatomic descriptors for accurate machine learning force fields of extended molecules」為題,于 2023 年 6 月 15 日發(fā)布在《Nature Communications》。

效率提高四倍,用于擴展分子的精確機器學習力場的有效原子間描述符

可靠的原子力場對于研究(生物)化學系統(tǒng)的動力學、熱力學和動力學至關(guān)重要。機器學習力場 (MLFF) 最近成為構(gòu)建能量和力的原子表示的一種選擇方法。

與傳統(tǒng)的計算化學方法相反,MLFF 使用參考計算的數(shù)據(jù)集來估計函數(shù)形式,這些函數(shù)形式可以恢復分子構(gòu)型與其相應的能量或力之間的復雜映射。該策略允許為從小有機分子到散裝凝聚材料和界面的各種系統(tǒng)構(gòu)建 MLFF,相對于參考從頭算計算,能量預測誤差低于 1 kcal mol^-1。

MLFF 的應用已經(jīng)包括了解材料中電子和結(jié)構(gòu)轉(zhuǎn)變的起源、計算分子光譜、模擬化學反應以及模擬分子的電子激發(fā)態(tài)。盡管 MLFF 取得了這些巨大的成功,但仍然存在許多開放的挑戰(zhàn)。例如,MLFF 模型對較大分子的適用性有限,部分原因是描述符維度的快速增長。

用于編碼分子配置的描述符決定了 MLFF 捕獲分子中不同類型相互作用的能力。因此,描述符旨在包含強調(diào)系統(tǒng)特定方面的特征,或強調(diào)不同材料之間的相似化學/物理模式。學界已經(jīng)提出了許多不同的描述符來為廣闊的化學空間的特定子集構(gòu)建成功的 MLFF。但是,不能保證給定的描述符能夠準確描述表征柔性分子系統(tǒng)的高維勢能面(PES)中的所有相關(guān)特征。這里的主要挑戰(zhàn)是平衡給定 ML 模型所需的特征數(shù)量,從而描述短期和長期交互之間的相互作用。

理論上,ML 模型應該能夠正確描述 (i) 遠程交互的非可加性,(ii) 這種交互對交互對象環(huán)境的強烈依賴性,(iii) 導致遠程相互作用的多尺度性質(zhì)的非局部反饋效應。解決這些特征需要開發(fā)靈活且同時準確高效的 MLFF,而無需使用嚴格預定義的交互功能形式或強加特征長度尺度。

或者,可以切換到所謂的全局描述符,例如庫侖矩陣,其中考慮了所有原子間距離。不幸的是,這樣的全局描述符與系統(tǒng)大小呈二次方關(guān)系。此外,減少全局模型中的描述符維數(shù)是一個未解決的挑戰(zhàn)。

為了應對這些挑戰(zhàn),盧森堡大學的研究團隊提出了一種自動程序,用于識別與大型和柔性分子的描述最相關(guān)的全局描述符中的基本特征。

效率提高四倍,用于擴展分子的精確機器學習力場的有效原子間描述符

圖示:描述符縮減方案概述。(來源:論文)

研究人員應用開發(fā)的方法來識別各種目標系統(tǒng)的有效表示,包括小分子、超分子復合物和所有四大類生物分子(即蛋白質(zhì)、碳水化合物、核酸和脂質(zhì))的單位:阿司匹林(21 個原子)、「巴基捕手」(148 個原子)、丙氨酸四肽(Ac-Ala3-NHMe,42 個原子)、乳糖二糖(45 個原子)、腺嘌呤-胸腺嘧啶 DNA 堿基對(AT-AT,60 個原子)、棕櫚酸脂肪酸(50 個原子)。使用減少的描述符可以提高預測準確性,并將計算效率提高兩到四倍。

效率提高四倍,用于擴展分子的精確機器學習力場的有效原子間描述符

圖示:減少描述符的模型的準確性。(來源:論文)

大分子的高效建模需要低維度的描述符,其中包括特定預測任務的相關(guān)特征。新方法除了提高效率之外,與使用默認全局或局部描述符構(gòu)建的模型相比,此類描述符還提高了 ML 模型的準確性。這是簡化了應該由 ML 模型在縮小的描述符空間中學習的交互模式的結(jié)果。由此產(chǎn)生的 MLFF 允許進行長時間的分子動力學模擬,從而證明在訓練集中表示的 PES 區(qū)域中的穩(wěn)定行為。

對與準確能量/力預測相關(guān)的非局部描述符特征的詳細分析顯示了非平凡的模式。這些模式與分子結(jié)構(gòu)和組成有關(guān),平衡了與描述符特征相關(guān)的相互作用強度和這些特征提供的有關(guān)原子漲落的統(tǒng)計信息。研究表明,與大至 15? 的原子間距離相關(guān)的描述符特征,可以在描述非局部相互作用中發(fā)揮重要作用。該團隊列舉的實例涵蓋了所有四大類生物分子和超分子的單元,因此得出的結(jié)論適用于范圍廣泛的(生物)化學系統(tǒng)。

效率提高四倍,用于擴展分子的精確機器學習力場的有效原子間描述符

圖示:交互模式的復雜性。(來源:論文)

這里提出的描述符縮減方案的主要應用是生成的全局描述符與原子數(shù)的線性比例。研究人員發(fā)現(xiàn)大分子的全局描述符被過度定義,并且可以僅使用少數(shù)描述集體遠程相互作用的遠程特征來構(gòu)建同樣準確的模型。如果有可靠的參考數(shù)據(jù)可用,這種行為似乎是大分子系統(tǒng)的普遍現(xiàn)象。

總體而言,該工作在機器學習力場的廣泛領(lǐng)域取得了實質(zhì)性突破。這些突破包括(i)展示了大型系統(tǒng)的全局 MLFF 線性縮放的潛力,(ii)分析有助于準確預測的非局部原子間特征,(iii)在長時間尺度分子動力學模擬中證明簡化模型的準確性、效率和穩(wěn)定性。因此,這是在不犧牲集體非局部相互作用的情況下為具有數(shù)百個原子的系統(tǒng)構(gòu)建準確、快速且易于訓練的 MLFF 的關(guān)鍵步驟。

論文鏈接:https://www.nature.com/articles/s41467-023-39214-w

原創(chuàng)文章,作者:計算搬磚工程師,如若轉(zhuǎn)載,請注明來源華算科技,注明出處:http://www.xiubac.cn/index.php/2024/01/22/55dec2b740/

(0)

相關(guān)推薦

武川县| 荆州市| 南昌市| 吴忠市| 台北市| 景泰县| 韩城市| 泰州市| 沙河市| 明溪县| 石柱| 锦州市| 二手房| 日喀则市| 天柱县| 岳阳市| 邢台县| 龙南县| 来宾市| 保德县| 大荔县| 乌鲁木齐市| 长宁区| 德江县| 兴化市| 通河县| 新宁县| 河源市| 恩施市| 郧西县| 神农架林区| 彭水| 南郑县| 阿勒泰市| 乌海市| 青神县| 金山区| 田阳县| 尚义县| 巴彦县| 清丰县|