国产三级精品三级在线观看,国产高清无码在线观看,中文字幕日本人妻久久久免费,亚洲精品午夜无码电影网

【機器學習】npj. Comput. Mater.:加速材料設計的生成式平臺——GT4SD,推動科學發(fā)現(xiàn)!

【機器學習】npj. Comput. Mater.:加速材料設計的生成式平臺——GT4SD,推動科學發(fā)現(xiàn)!
【機器學習】npj. Comput. Mater.:加速材料設計的生成式平臺——GT4SD,推動科學發(fā)現(xiàn)!
【做計算 找華算】理論計算助攻頂刊,10000+成功案例,全職海歸技術團隊、正版商業(yè)軟件版權!
經費預存選華算,高至15%預存增值!
【機器學習】npj. Comput. Mater.:加速材料設計的生成式平臺——GT4SD,推動科學發(fā)現(xiàn)!
隨著各個科學領域數(shù)據的可用性不斷增加,生成模型在加速科學發(fā)現(xiàn)方面具有巨大的潛力。生成模型利用從數(shù)據集中學習到的有效表示來加速新假設的制定,這些假設有可能對材料的發(fā)現(xiàn)產生廣泛的影響。在這篇Brief Communication中,IBM歐洲研究院Matteo Manica等人介紹了他們最近提出的用于科學發(fā)現(xiàn)的生成式工具包(GT4SD)。這個可擴展的開源庫使科學家、開發(fā)人員和研究人員能夠訓練和使用最先進的生成模型,以加速材料設計,推動科學發(fā)現(xiàn)。
研究背景
科學方法在很大程度上推動了上個世紀技術的迅速進步。然而,在一些重要領域,如材料或藥物的發(fā)現(xiàn),生產率一直在急劇下降。如今,發(fā)現(xiàn)新材料可能需要近十年的時間,成本高達1000萬至1億美元。天然產物及其衍生物的儲存庫已經在很大程度上被消耗完,自下而上的假設已經表明,在巨大的搜索空間中識別和選擇新的和有用的候選物是極具挑戰(zhàn)性的,例如,藥物類分子的化學空間估計可包含>1033個結構。為了克服這個問題,近年來,基于機器學習的生成模型,如變分自編碼器(VAE),生成對抗網絡(GAN)已經成為一種實用的方法,可以利用分子結構的不同表示(例如基于文本的SMILES和SELFIES,或基于圖形的表示)來設計和發(fā)現(xiàn)具有所需屬性的分子。與枚舉搜索或網格搜索相比,生成模型可以更有效地探索從標準定義的數(shù)據中學習到的巨大搜索空間,已經在糖和染料分子的設計,特定靶標的配體,抗癌靶向分子,抗菌肽和半導體材料中得到了應用。
與此同時,越來越多的研究者正在努力開發(fā)軟件包來評估機器學習模型及其在材料科學中的應用。在性能預測方面,發(fā)布了用于材料性能預測的模型、數(shù)據挖掘工具包和基準測試軟件包,如CGCNN、pymatgen、Matminer、Matbench/AutoMatminer等。在生成模型方面,GuacaMol和Moses等通用框架為特定領域的生成模型軟件鋪平了道路,這些軟件在藥物發(fā)現(xiàn)領域也越來越受歡迎。
最近,研究者也提出了很多新的方法。生成流網絡(GFN)是一種利用強化學習的思想來提高樣本多樣性的生成模型,它為圖的結構化數(shù)據提供了一種非迭代的采樣機制。GFN特別適合于分子生成領域中樣本多樣性難以保證的問題。擴散模型(DM)是學習復雜的高維分布的生成模型,在多個維度上對數(shù)據去噪。DM在無條件和有條件的視覺任務中解決樣本質量和多樣性方面取得了令人印象深刻的結果。條件生成模型已經在分子構象表示以及蛋白質生成與對接等領域得到應用。
在這種情況下,由于軟件庫和工具包可以降低使用生成模型的難度,人們對軟件庫和工具包的需求也日益增長??紤]到不斷增長的模型規(guī)模以及訓練模型對大量計算資源的巨大需求,這種低成本、簡易的軟件包開發(fā)需求正變得更加迫切。而且,這種趨勢在資金充足的機構中的一小群享有特權的研究人員和科學界的其他成員之間造成了不平衡,從而違背了開放、合作和公平的科學原則。
圖文導讀
為此,作者開發(fā)了用于科學發(fā)現(xiàn)的生成式工具包(GT4SD)。這個Python庫旨在通過開發(fā)一個框架來簡化生成模型的訓練、執(zhí)行和開發(fā),從而加速科學發(fā)現(xiàn)。如圖1所示,GT4SD為所有生成模型提供了一個統(tǒng)一的應用程序注冊表,并為每一個屬性提供了一個單獨的注冊表。這不需要用戶熟悉開發(fā)代碼,從而大大降低了使用門檻。此外,模型之間的高度標準化簡化了對新模型的集成,促進了容器化或分布式計算系統(tǒng)的使用。GT4SD為訪問最先進的生成模型提供了最大的框架,它可以用來執(zhí)行、訓練、微調和部署生成模型,所有這些都可以直接通過Python或通過高度靈活的命令行界面(CLI)來完成。所有預先訓練的模型都可以通過托管在Hugging Face Spaces上的web應用程序,直接在瀏覽器執(zhí)行。對于高級用戶,GT4SD模型中心對在新數(shù)據集上訓練現(xiàn)有算法的發(fā)布過程進行了簡化,以便在工作流程中進行即時和持續(xù)的集成。
GT4SD提供了一組生成假設(推理管道)和微調特定領域的生成模型(訓練管道)的功能,與現(xiàn)有的流行庫兼容和互操作,包括PyTorch, PyTorch Lightning,Hugging Face Transformers,Diffusers,GuacaMol,Moses,TorchDrug,GFlowNets和MoLeR,也包括廣泛的預訓練模型和材料設計的應用程序。GT4SD提供了簡單的接口,使得生成模型只需要使用幾行代碼就可以輕易部署。該工具為有興趣在科學研究中應用最先進模型的研究人員和學生提供了一個環(huán)境,使他們能夠使用各種各樣的預訓練模型進行實驗,涵蓋廣泛的材料科學和藥物發(fā)現(xiàn)應用。此外,GT4SD提供了一個標準化的CLI,用于推理和訓練的APIs不會影響對算法細粒度參數(shù)的確定和>15種基于預訓練模型的web應用程序的能力。
【機器學習】npj. Comput. Mater.:加速材料設計的生成式平臺——GT4SD,推動科學發(fā)現(xiàn)!
圖1. GT4SD結構,實現(xiàn)了生成模型的推理和訓練管道,GT4SD還提供了用于算法版本控制和共享的實用程序,以便在社區(qū)中更廣泛地使用。
可以說,加速科學發(fā)現(xiàn)的最大潛力在于從頭分子設計領域,特別是在材料和藥物發(fā)現(xiàn)方面。隨著幾項(預)臨床試驗的進行,第一種人工智能生成的藥物獲得FDA的批準并進入市場只是時間問題。在一項開創(chuàng)性的研究中,深度強化學習模型(GENTRL)被用于發(fā)現(xiàn)有效的DDR1抑制劑,這是一種與纖維化、癌癥和其他疾病有關的重要蛋白激酶靶點。總共合成了6個分子,其中4個分子在生化試驗中被發(fā)現(xiàn)有活性,1個在小鼠體內表現(xiàn)出良好的藥代動力學(gentrl-ddr1)。作為應用于分子發(fā)現(xiàn)的典型案例,作者依據gentrl-ddr1生成一個相似的分子,提升其估計的水溶性(ESOL)。低的水溶性影響了>40%的新化學實體,因此對藥物遞送構成了主要障礙,提高溶解度需要探索gentrl-ddr1周圍的局部化學空間,以找到優(yōu)化的先導化合物。
【機器學習】npj. Comput. Mater.:加速材料設計的生成式平臺——GT4SD,推動科學發(fā)現(xiàn)!
圖2. 使用GT4SD進行分子發(fā)現(xiàn)的案例研究,從使用生成模型設計的化合物開始(gentrl-ddr1),作者展示了如何使用GT4SD快速設計具有所需屬性的分子,使用庫中可用的一系列算法(兩種設置:無條件和條件)。條件模型可以受到化學支架的約束,或者以期望的屬性值為條件。
圖2中顯示了如何使用GT4SD處理此任務的流程。在第一步中,可以通過GT4SD的界面訪問一組豐富的預訓練分子生成模型。有兩個主要的模型類可用。第一類由圖生成模型表示,如MoLeR或TorchDrug庫中的模型,特別是圖卷積策略網絡和基于流的自回歸模型(GraphAF)。第二個模型類是化學語言模型(CLM),它將分子視為文本(SMILES或SELFIES序列)。GT4SD中的大多數(shù)化學語言模型都是通過MOSES或GuacaMol庫訪問的;特別是VAE,對抗自編碼器(AAE)或目標增強GAN模型(ORGAN)。第一步,作者從每個模型所學習到的化學空間中隨機抽取分子。對生成的分子與gentrl-ddr1的Tanimoto相似性進行評估表明這種方法雖然產生了許多具有滿意ESOL的分子,但并沒有充分反映與種子分子的相似性約束(圖2,左下)。這是可以預料到的,因為所使用的生成模型是無條件的。
作為一種更精細的方法,GT4SD包括基于條件的分子生成模型,可以用自然文本查詢(Text+Chem T5)、連續(xù)屬性約束或分子子結構(scaffolds)(如MoLeR、REINVENT),甚至是屬性約束和分子子結構的組合(Regression Transformer)來執(zhí)行。從這些模型中獲得的分子,特別是MoLeR和RT,在很大程度上遵守了相似性約束,并產生了許多與gentrl-ddr1相似度> 0.5的分子。MoLeR和RT將ESOL提高了1M/L以上(圖2右)。在一個現(xiàn)實的應用場景中,藥物化學家可以手動審查用所描述的配方生成的分子,并有選擇地考慮合成和篩選。
總結與展望
作者所開發(fā)的GT4SD是邁向加速材料發(fā)現(xiàn)的生成建模環(huán)境的第一步。未來,作者下一步將擴展GT4SD的應用領域(例如無機材料、可持續(xù)性、地理信息學等)。未來的發(fā)展將集中在兩個主要組成部分:擴展模型評估和樣本屬性預測;開發(fā)一個共享模型的生態(tài)系統(tǒng),該模型建立在通過現(xiàn)有CLI命令公開的功能之上,用于模型生命周期管理。作者將擴展目前來自GuacaMol和Moses的集成指標,并探索偏差度量,以便根據生成的示例及其屬性更好地分析性能。在共享生態(tài)系統(tǒng)方面,作者相信GT4SD將進一步受益于直觀的應用程序中心,它可以促進預訓練生成模型的分發(fā),并使用戶能夠輕松地根據特定應用程序的自定義數(shù)據微調模型。
文獻信息
Matteo Manica, Jannis Born, Joris Cadow, Dimitrios Christofidellis, Ashish Dave, Dean Clarke, Yves Gaetan Nana Teukam, Giorgio Giannone, Samuel C. Hoffman, Matthew Buchan, Vijil Chenthamarakshan, Timothy Donovan, Hsiang Han Hsu, Federico Zipoli, Oliver Schilter, Akihiro Kishimoto, Lisa Hamada, Inkit Padhi, Karl Wehden, Lauren McHugh, Alexy Khrabrov, Payel Das, Seiji Takeda and John R. Smith. Accelerating material design with the generative toolkit for scientific discovery. npj Computational Materials 9, 69 (2023)
https://doi.org/10.1038/s41524-023-01028-1
【機器學習】npj. Comput. Mater.:加速材料設計的生成式平臺——GT4SD,推動科學發(fā)現(xiàn)!
【機器學習】npj. Comput. Mater.:加速材料設計的生成式平臺——GT4SD,推動科學發(fā)現(xiàn)!

 點擊閱讀原文,報名計算培訓!

原創(chuàng)文章,作者:v-suan,如若轉載,請注明來源華算科技,注明出處:http://www.xiubac.cn/index.php/2023/10/25/363dc5566a/

(0)

相關推薦

突泉县| 昆山市| 鄂托克前旗| 乌苏市| 汉寿县| 苏州市| 邯郸市| 建德市| 嘉黎县| 读书| 临安市| 汝阳县| 彭山县| 永靖县| 民和| 忻州市| 清水河县| 怀宁县| 贡觉县| 荆州市| 土默特左旗| 卓尼县| 灵丘县| 沂南县| 岗巴县| 宁河县| 繁峙县| 油尖旺区| 海南省| 海宁市| 项城市| 株洲县| 酉阳| 册亨县| 会东县| 大新县| 萍乡市| 西青区| 尼玛县| 涡阳县| 资阳市|