面对一个新反应,你会怎么做?大多数人的选择都是先狂查一通文献,寻找有没有同类型或者比较相近的反应,根据文献报道以及自己的经(xiā)验(cāi),设定试剂、催化剂、溶剂及添加剂和反应条件,等待结果的时候顺带祈祷满天神佛保佑……现实往往比较残酷,别说一次成功,很多时候实验结果往往莫名其妙,想找一个优化的方向都费劲。这也很好理解,就算是机理完全一样反应,底物小小的变动,就总会带来一些微不可查但又非常关键的差别,人们很难全面地考虑并做出应对。于是,系统考察反应条件几乎是每个合成化学工作者都会遇到的情况,这种试错过程相当耗时耗资源,效果也不是很好。
近日,犹他大学Matthew Sigman教授(点击查看介绍)团队在Nature上报道了一种数据驱动的工作流,基于此前发表的化学反应数据,通过机器学习算法来预测新的反应,以帮助化学家缩小需要探索的条件范围。作为验证,他们选择已报道的一系列1,1'-二-2-萘酚(BINOL)衍生的手性磷酸催化的对亚胺的亲核加成反应,收集反应对映选择性数据集并开发了统计模型。结果表明,这些模型能够以比较让人满意的准确性预测新反应的对映选择性,有望节省化学研究中的宝贵时间和资源,也为简化催化剂和反应的开发创造了机会。
Sigman教授课题组。图片来源:犹他大学
催化过程是否高效,过渡态说了算,而过渡态的特征就是通过非键相互作用决定反应的几何构型及能垒。过渡态键能弱而敏感,这样的过程往往很难鉴定和定义,因为反应相关的催化剂、底物、试剂及溶剂等组分都可能会有影响。反应优化通常会因几个变量的微妙关系而难以取得进展,其中一个或几个不大的结构变化都会让实验结果产生较大改变。这种情况在不对称催化领域尤为常见,看似微小的结构变化会对反应的对映选择性产生意料之外的影响。更郁闷的是,这种机理之外的异常很可能会被数据掩盖,当反应条件改变时,化学家很难敏锐且全面地识别其中的关键。在相同反应机理下,如果能够同时考虑到所有的反应组分,从而为反应提供关键的非键相互作用的整体视图,那几乎相当于开了“上帝视角”,准确预测涉及新底物的反应也就不在话下了。
催化剂能够通过相同的活化模式而催化迥然不同的反应,然而即使是类似的反应,想要获得最优的反应结果也需要尝试改变很多条件。这不禁会使人想到以下一系列问题:(1)如果有相同的活化模式,反应机理是否可以从一个反应转移到另一个新反应中?如果可以,那么(2)如何通过大数据驱动工作流,结合已有反应数据和对分子描述参数化,建立一类反应的统计模型?如果这个工作流可以实现,那么(3)是否可利用已有反应数据预测新反应的表现?
图1. 反应预测工作流。图片来源:Nature
上面所提及的工作流,毫无疑问要使用到目前热门的机器学习算法。但这里又有很大的困难,以往文献中报道的实验条件并不统一,所产生的大多数数据也不完整,因此需要开发出易于理解的且适应各种反应组分的描述符。为了解决这一问题,作者采用了涉及现代数据分析方法及先进参数集的策略来考察不对称催化反应。在该方法中,由定量构效关系(QSAR)、分子力学(MM)、密度泛函理论(DFT)得到的集成描述符集,与从多个文献源通过数据挖掘得到的一个相对较大的催化反应输出库相关联。结合合适的数据组织及趋势分析技术,可以建立反应之间的一般关系。最后通过统计模型对新反应类型的预测来验证机理的可转移性。
作者选取了亲核试剂对亚胺的加成反应进行概念验证,这种反应在不对称催化转化中非常常见,原料易得,且产物也有价值。作者评估了上述加成反应使用的不同催化剂类型,重点关注那些具有广泛的底物普适性和对映选择性的类型,最终作者选择了手性磷酸催化剂,具体而言,是3,3'-芳基的BINOL衍生的手性磷酸催化的质子亲核试剂对亚胺的加成反应。
作者收集了来自多个报道的含有各种组分的367个反应,并基于亚胺过渡态的几何构型(E 或Z)对数据集进行分类,其中E 型亚胺过渡态具有+ee值,Z 型亚胺过渡态具有-ee值。醛亚胺的立体化学由产物的对映体决定,酮亚胺则要考虑取代基大小,除非较小的取代基有更高的Cahn–Ingold–Prelog(CIP)优先级。对此,受影响的酮亚胺取代基只有三氟甲基或酯,在指定E 或Z 过渡态时拥有较低的优先级。这对于理解产物的对映选择性很重要。模型不能预测产物的立体化学,但可以预测反应是通过E 或Z 型的机理进行,这可用于确定绝对构型。与此同时,作者从DFT优化的几何构型中收集了一系列分子描述符值,以描述每种亚胺、亲核试剂、催化剂及溶剂的结构特征。作者探索了两种途径:1)源于DFT计算的参数描述了包含常见结构特征的分子,包括Sterimol参数(Verloop提出的尺寸参数,笔者注)、键长、角度测量、分子振动和强度、自然键轨道(NBO)电荷、极化率、最高已占分子轨道(HOMO)和最低未占分子轨道(LUMO)能量;同时收集反应组分及催化剂的参数。2)使用如拓扑学和连接性二维描述符,包括分子形状、大小和杂原子数目,这是评估结构上不同的分子(如溶剂)的传统方法。其他反应变量如浓度、分子筛也被包含在内,作为分类描述符。
图2. 综合模型的发展。图片来源:Nature
接着作者将线性回归算法应用于数据集以确定反应分子结构之间的关系,交叉验证分析及外部验证表明该模型表现令人满意。该模型强调了对17种反应类型对映选择性有贡献的溶剂(黑色)、亚胺(蓝色)、亲核试剂(绿色)和催化剂(红色)的六个参数。在该归一化模型中,最大系数为亚胺NBO描述符,表明亚胺底物对于产物对映选择性有着重要影响。作者推测,使用单一模型对一系列反应进行关联并预测,因为过渡态基本相似,也许最佳验证是通过“留一反应”(leave one reaction out,LORO)分析来实现。在该统计评估中,催化剂、亚胺和亲核结构作为验证集而变化,并通过模型的预测准确度来进行评估。作者对每个反应进行评估,其中大多数预测表现良好。有些反应使用LORO方案很难预测,这也不太奇怪,原因在于该模型无法捕获训练集中没有充分出现的某些特定结构变化。基本上讲,这个工作流表明,一种反应可用于定量地预测另一种反应的结果。
图3. 重点相关性的开发。图片来源:Nature
接下来,作者希望能实现该工作流的终极目标——辨别细微的潜在机理。不过,这个目标还不能通过上述的相关性实现,因为它源于整个数据集,只能提供机理模式的概览。为此作者化数据集为多个子集,以亚胺过渡态的几何构型(E 或Z)分类,后者在结构上与反应组分有不同的相互作用。线性回归算法应用于数据分类以识别分子结构与实验得出的对映选择性之间的相关性,随后分析和细化所得模型,明确机理假设(图3)。总的来说,统计模型提出了一种机制,即亚胺采取与催化剂大位阻取代基排斥力最小的能量最小化构象。对此最有说服力的解释是,使用大位阻的亲核试剂似乎对反应的对映选择性没有显著影响。这里包括的参数(LUMO和P-O不对称拉伸强度,iPOas)表明,催化剂与亲核试剂之间的氢键角色只占一小部分,如果催化剂与亚胺匹配,大部分亲核试剂都能够容忍。
图4. 分步反应预测。图片来源:Nature
该工作流的最后一步,作者将统计模型获得的对映选择性催化应用于不在训练数据集中的底物,以评估所得机理原则从一种反应到另一种反应的转移能力。如果这种“样本外”预测有效可行,则该模型就可预测新的亚胺、亲核试剂和/或催化剂的影响。作者首先评估了15个反应,其中亲核试剂未包含在训练集之中,评估结果显示平均绝对ΔΔG‡误差为0.37 kcal mol-1(13个实例在5% ee以内),并且绝对立体化学正确地指定为R,证明了该模型适用于新的亲核试剂。进一步的,作者评估了亲核试剂以及亚胺都没有包含在训练集之中的反应,这更具挑战性,但结果依然让人满意。最后,作者尝试了最近报道的反应,在缺乏该反应类型数据的情况下,通过机器学习算法,该模型仍然准确地预测了反应的对映选择性。
Nature网站对此项工作也进行了评论 [1]。反应建模的梦想是建立一个终极工具,能够准确预测任何反应组分的反应产物,从而让计算机去发现新反应。化学家想要实现这一梦想还有很长的路要走,但Sigman等人为此开了一个好头。Sigman教授认为一个可靠的反应预测模型可以大幅降低新药研发的投入,“制药工业不希望将钱投入到他们都不知道是否会成功的事情上,所以,如果你拥有一个算法建议这个有很大几率会成功,你的痛苦会小很多。”[2]
原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):
Holistic prediction of enantioselectivity in asymmetric catalysis
Jolene P. Reid, Matthew S. Sigman
Nature, 2019, 571, 343–348, DOI: 10.1038/s41586-019-1384-z
导师介绍
Matthew Sigman
https://www.x-mol.com/university/faculty/1749
相关资讯:
1. Holistic models of reaction selectivity
https://www.nature.com/articles/d41586-019-02148-9
2. Algorithms improve the odds of synthetic chemistry success
https://unews.utah.edu/chem-algorithms/
(本文由青松子供稿)
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!