機(jī)器學(xué)習(xí)(ML)有望解決化學(xué)領(lǐng)域的重大挑戰(zhàn),并加快研究假設(shè)的生成、改進(jìn)和排序。盡管ML的工作流程具有總體適用性,但當(dāng)前ML評(píng)估技術(shù)和指標(biāo)的異質(zhì)性導(dǎo)致難以比較和評(píng)估新算法的相關(guān)性。最終,這可能會(huì)延緩化學(xué)的大規(guī)模數(shù)字化,并使開(kāi)發(fā)、實(shí)驗(yàn)人員、審稿人和期刊編輯感到困惑。
為此,葡萄牙里斯本大學(xué)Tiago Rodrigues等人批判性地討論了一套針對(duì)不同類(lèi)型的基于ML的出版物的方法開(kāi)發(fā)和評(píng)估指南,重點(diǎn)強(qiáng)調(diào)了監(jiān)督學(xué)習(xí)。
作者提供了來(lái)自不同研究人員和化學(xué)學(xué)科的各種示例,在考慮不同研究組的不同可訪問(wèn)性的同時(shí),建議側(cè)重于報(bào)道完整性和工具之間的標(biāo)準(zhǔn)化比較。
作者希望通過(guò)提出回顧/前瞻性測(cè)試清單并剖析其重要性以進(jìn)一步提高M(jìn)L透明度和可信度。具體來(lái)說(shuō),作者討論了特定支撐實(shí)驗(yàn)的相關(guān)性,并分析了“該做和不該做”。通過(guò)推薦廣泛適用的指南,旨在提高對(duì)專(zhuān)注于化學(xué)科學(xué)中新概念、基準(zhǔn)或新發(fā)現(xiàn)的ML出版物的期望??紤]到實(shí)用性、問(wèn)責(zé)制和易于執(zhí)行性,本文的建議分為不同的類(lèi)別:
1)數(shù)據(jù)/代碼報(bào)告;
2)回顧性評(píng)估;
3)與基準(zhǔn)比較;
4)前瞻性評(píng)估和模型解釋?zhuān)瑥亩岣呷NML研究類(lèi)型中每種方法的質(zhì)量、可轉(zhuǎn)移性和重用性。
圖1. ML中的回顧性評(píng)估
作者希望ML能夠加快化學(xué)科學(xué)的進(jìn)步,并完全獨(dú)立于人為干預(yù)或作為專(zhuān)家推理的助手。隨著為應(yīng)對(duì)特定挑戰(zhàn)而開(kāi)發(fā)的ML方法數(shù)量的增加,統(tǒng)一的標(biāo)準(zhǔn)程序在短期內(nèi)十分必要。作者建議,每種手稿類(lèi)型都需要不同的評(píng)估研究,如在某些情況下可能需要進(jìn)行徹底的前瞻性評(píng)估,但在其他情況下則不需要。此外,將評(píng)估與真正的ML前瞻性驗(yàn)證分開(kāi)是關(guān)鍵,在短時(shí)間內(nèi)幾乎不可能進(jìn)行適當(dāng)?shù)尿?yàn)證且只能通過(guò)多次迭代、經(jīng)過(guò)大量和多年研究來(lái)實(shí)現(xiàn)。
考慮到這一點(diǎn),作者構(gòu)建并討論了化學(xué)科學(xué)中ML的推薦回顧/前瞻性評(píng)估研究列表,并重申了沒(méi)有通用的方法,每個(gè)ML實(shí)施都可能需要特定的調(diào)查和控制,這在擬議的研究中施加了一定程度的靈活性??傊?,ML評(píng)估指南是化學(xué)科學(xué)界亟需的一步,作者也期待有吸引力的討論和指南的持續(xù)更新。
圖2. 根據(jù)稿件類(lèi)型所需的評(píng)估研究總結(jié)
Evaluation guidelines for machine learning tools in the chemical sciences, Nature Reviews Chemistry 2022. DOI: 10.1038/s41570-022-00391-9
原創(chuàng)文章,作者:v-suan,如若轉(zhuǎn)載,請(qǐng)注明來(lái)源華算科技,注明出處:http://www.xiubac.cn/index.php/2023/10/08/991b0ef3e3/