当前位置 : X-MOL首页行业资讯 › J. Phys. Chem. Lett. | 机器学习对电子强关联效应的快速识别:在过渡态金属配合物高通量筛选中的应用

J. Phys. Chem. Lett. | 机器学习对电子强关联效应的快速识别:在过渡态金属配合物高通量筛选中的应用

英文原题:Rapid Detection of Strong Correlation with Machine Learning for Transition-Metal Complex High-Throughput Screening

通讯作者:Heather Kulik,麻省理工学院

作者:Fang Liu (刘芳), Chenru Duan (段辰儒)


高通量计算筛选在新型功能分子及材料的研发中不可或缺。目前几乎所有高通量计算都使用近似的密度泛函理论(DFT),以确保计算的低成本以及流程的自动化能应对成千上万的分子的筛选。开壳层过渡金属配合物在催化、功能材料等领域有着广泛的应用前景,且它们的氧化/自旋态、配体千变万化。因此,高通量计算筛选在其研发中至关重要。然而过渡金属配合物的电子结构较为复杂,往往有强关联效应,而DFT无法准确预测强关联体系的性质,使得基于DFT的筛选可信度大打折扣。而较为精确的多参考态方法十分耗时,无法应用于高通量筛选。因此亟需研发一套方案,在不明显增加计算量的前提下,识别出强关联效应极强、在DFT高通量筛选中结果不可信的分子。


分子体系的强关联效应的强弱可以通过一些诊断参数来得到量化,而这些诊断参数可以通过包括DFT在内的各种量子化学计算得到。我们通过自动计算流程快速获得了近5000个过渡态金属配合物的强关联效应诊断参数,并在此基础上训练出机器学习模型,能够以极低的计算成本,对大规模(十万个以上分子)高通量筛选中的电子强关联效应进行快速识别。机器学习模型还为理解过渡态金属配合物的结构与强关联效应之间的关系提供了几点思路:


(1) 以往人们认为能隙小的体系电子关联效应就强。而我们统计得到的结果虽然整体具有这样的趋势,但是相关性较弱。能隙相近的体系,关联效应强度可能差别极大,反之亦然。

(2) 过渡态金属配合物的关联效应强度更多地取决于金属中心及与之直接连接的配体原子的静电学性质。而能隙更多地取决于配体的大小及远离金属中心的配体原子的组成。

(3) 机器学习模型能够在数以十万的过渡态金属配合物构成的化学空间中预测出哪些区域的DFT计算结果可靠,从而在高通量筛选中避开计算结果可信度低的区域。

图1. MD1数据集中强关联效应诊断参数与能隙的二维统计分布


强关联效应诊断参数的种类众多。我们选取了其中基于分数电子占据数(FON)的一类诊断参数,它们在准确性和计算速度上有着较好的平衡。我们通过有限温DFT计算得到了将近5000个过渡态金属配合物的诊断参数。这个数据集中的配合物是本课题组以往的发表的文章中产生的配合物的集合,既有无机化学中常见的配合物 (MD1数据集,2305个配合物),也有纯粹由理论计算产生的配合物,以确保我们的方法对配合物化学空间不同区域的普适性。所有的配合物组成的大集合称为MD2数据集 (4865个配合物)。


以往人们认为能隙小的体系电子关联效应就强,能隙大的体系电子关联效应就弱。这样的认知是出于直觉:能隙小的体系有更多接近简并的能级,因而会有更强的电子关联效应。然而我们对MD1数据集统计得到的结果表示,虽然整体具有这样的趋势,但是相关性较弱。能隙相近的体系,关联效应强度可能差别极大。例如图1中,阴影所示区域的配合物都有着4.5 eV左右的较大的能隙。但是有的配合物关联效应很强(诊断参数值很大),而有的配合物关联效应很弱(诊断参数值很小)。


为了能够在高通量筛选中更加快速地预测电子关联效应强弱,我们利用MD2数据集训练出了两种机器学习模型:核方法脊回归(KRR)模型,和人工神经网络(ANN)模型。这两种模型为我们理解过渡态金属配合物的结构与强关联效应之间的关系提供了几点思路。


图2. ANN模型对18万个过渡态金属配合物组成的化学空间中的电子关联效应的强弱(左)和能隙(右)的预测。圆圈中的区域含有能隙极小但关联效应较弱的分子。


KRR模型训练中使用的特征选择结果表明,过渡态金属配合物的关联效应强度更多地取决于金属中心及与之直接连接的配体原子的静电学性质。而能隙更多地取决于配体的大小及远离金属中心的配体原子的组成。这为我们进行功能材料设计提供了思路:如果我们想改变体系的关联效应强弱,我们可以调整金属中心的成分,或者调整与之直接连接的配体原子的静电学性质;如果我们想改变体系的能隙,则应该考虑改变配体大小等其他特征。


ANN模型比KRR模型预测电子关联效应强弱的精确度更高,对化学空间不同区域的预测能力也更强。为了展示这一ANN模型在高通量筛选中的作用,我们理论构造了一个含有超过18万个过渡态金属配合物的化学空间,并用ANN模型预测了这一空间中的所有配合物的能隙和及强关联效应诊断参数。统计结果揭示出一系列有趣的趋势。


过渡态金属配合物的高低自旋态的相对能量的预测是理论计算的重点和难点。以往针对少数配合物的研究显示,不同的理论方法计算出的自旋态的相对能量往往十分不同,推测可能的原因是高低自旋态的关联效应强弱差距较大,使得一种方法对同一体系的不同自旋态的计算误差不同,于是高低自旋态的能量误差无法相互抵消。我们的ANN模型预测的18万个配合物的统计结果一定程度上印证了这一推测,二价铬和锰的配合物的低自旋态的关联效应远强于高自选态。然而二价铁和钴配合物的高低自旋态的电子关联效应强弱并无明显不同。


此外,ANN模型可以在化学空间中预测出哪些区域的DFT计算结果可靠,从而在高通量筛选中避开计算结果可信度低的区域。例如人们往往认为能隙小的体系电子关联效应就强,DFT结果不可靠。那么当我们想去化学空间中搜索具有小能隙的分子时,就会陷入困境:DFT筛选出的分子可能实际上并不符合要求。利用我们ANN模型,可以在搜寻小能隙分子的过程中,专注于那些电子关联效应弱(诊断参数小), DFT预测结果可靠的分子。我们成功地在18万个配合物的化学空间中找到了符合要求的分子,它们存在于化学空间的某些小区域中(图2)。我们可以叫这些区域“DFT安全岛”。在高通量筛选中,我们可以着重在这些“DFT安全岛”中寻找候选分子,因为这些区域的理论计算结果较为可信。


综上,我们展示了一种低成本的提高DFT高通量计算筛选的可信度的方法。基于5000个过渡态金属配合物的强关联效应诊断参数,训练出机器学习模型,能够对大规模(十万个以上分子)高通量筛选中的电子强关联效应进行快速识别。这一方法在催化剂等功能分子的设计与研发中具有应用前景。


原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):

Rapid Detection of Strong Correlation with Machine Learning for Transition-Metal Complex High-Throughput Screening

Fang Liu, Chenru Duan, Heather J. Kulik*

J. Phys. Chem. Lett., 2020, 11, 19, 8067–8076, DOI: 10.1021/acs.jpclett.0c02288

Publication Date: August 31, 2020

Copyright©2020 American Chemical Society


(本稿件来自ACS Publications


如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOLx-mol.com ), 未经许可,谢绝转载!

阿拉丁
天然纤维材料
口腔微生物
英语语言编辑翻译加编辑
开学季购书享好礼新
有奖问卷征集新
材料学领域约200份+SCI期刊
定位全球科研英才
中国图象图形学学会合作刊
东北石油大学合作期刊
动物源性食品遗传学与育种
专业英语编辑服务
左智伟--多次发布
广州
深圳湾
多次发布---上海中医药
南科大
新泽西
罗格斯
上海交大
中科院
南科大
ACS材料视界
down
wechat
bug