入门综述：机器学习在“逆合成+反应预测+自动化合成”的应用- X-MOL资讯

当前位置： X-MOL首页 › 行业资讯 › 入门综述：机器学习在“逆合成+反应预测+自动化合成”的应用

入门综述：机器学习在“逆合成+反应预测+自动化合成”的应用

作者：X-MOL 2021-06-06

近年来，化学合成和数据科学的交叉导致了一些新兴工具的出现，包括用于逆合成和反应预测的算法，以及用于高通量、自动化合成的机器人。近日，来自美国密歇根大学安娜堡分校的Tim Cernak、普林斯顿大学的Abigail G. Doyle和加州大学伯克利分校的Richmond Sarpong合作在Nature Reviews Methods Primers 上发表Primer文章，总结当前计算机科学尤其是机器学习在逆合成（图1b）、反应预测（图1c）和自动化合成领域（图1d）的应用，旨在向非计算专家介绍化学信息学理论领域的现状，包括实验和理论方面，以及目前使用的自动化软件和硬件。

为了将数据科学应用于化学合成，计算机必须理解由分子结构编码的信息。分子的输入和处理通常基于字符串，如SMILES（图1a）、InChI和SMARTS。数年前，乘着人工智能（AI）的东风，化学信息学领域开始复兴并快速发展。下面，将分别就逆合成、反应预测和自动化合成介绍这一交叉领域的发展。

文1-1.jpg

文1-2.jpg

图1. （a）分子的SMILES表示；（b）逆合成路线规划；（c）反应预测；（d）自动化合成。图片来源：Nat. Rev. Methods Primers

文1-3.jpg

文1-4.jpg

图2. 逆合成路线规划、反应预测和自动化合成的工作流（workflow）。（a）基于逻辑的逆合成高级程序；（b）详尽逆合成路线预测程序；（c）单步反应的统计模型；（d）自动化合成的工作流。图片来源：Nat. Rev. Methods Primers

逆合成

逆合成由Corey在20世纪60年代提出，用来描述通过断键将一个复杂的目标分子还原为一个简单前体的迭代过程。国际象棋常被用作比喻有机合成，一步一步直达目标。与国际象棋类似，人们也曾多次尝试将计算机辅助逻辑应用于有机合成。与国际象棋每一步的价值相对容易量化不同，有机合成每一步的价值和合成路线总体目标的评估，从化学视角来看却可能有不同的解读。AlphaGo击败围棋冠军李世石让世人见识了AI的威力，但有机合成的逻辑性和创造性使它很难被AI所征服。目前，逆合成的程序主要分为基于逻辑的启发式程序和详尽逆合成路线预测程序，下面分别介绍这两种程序的应用。

基于逻辑的高级程序（High-level logic-based programs，图2a）对给定的化合物应用特定的启发式并配合有经验用户的输入一起使用。E. J. Corey等人开发的LHASA（Logic and Heuristics Applied to Synthetic Analysis）是其中的代表性程序，虽然现在已不再可用，但很多后续的逆合成程序都受到其启发。这些程序针对一个特定的反应会输出合成的建议。如LHASA为化合物18找到来源丰富含手性中心的香茅醇作为原料（图3a）。另一个应用例子是分子网络分析，用来识别复杂天然产物分子中最关键的键，然后优先断开来简化拓扑复杂结构（Nature, 2015, 528, 493-498，点击阅读详细），但不会给出具体的转换策略。

详尽逆合成路线预测程序（Detailed retrosynthetic planners，图2b）会给出完整的合成路线（甚至包括反应条件）。这个过程需要一个模块来拆分目标化合物，这些模块通常应用基于规则或无规则的方法来提出可能的转化。以基于规则的方法为例，基于规则在概念上类似于一个有机化学家选择一个已知反应类型应用于一个目标分子的过程。严谨的反应规则需要让专业的有机化学家对产物和反应物的子结构以及必要的分子环境（如官能团相容性、立体选择性等）所定义的转化进行编码。该方向的代表性程序是由Grzybowski教授团队开发的Chematica（商用名为Synthia™），但是建立一个专家编码的大规模规则库无疑极为费时费力，而且还必须依赖于化学家的专业知识。因此，从可访问的反应数据库中自动生成反应规则成为一个发展很快的研究领域。MIT的ASKCOS程序，正是沿着这个思路而开发。但是，要验证预测路线的可靠性并不容易。最直接的方法就是根据预测出来的路线合成目标分子，比如ASKCOS和Chematica都有试验验证的案例，ASKCOS预测了15个药物分子的路线并成功合成，而Chematica预测了生物碱 (R,R,S)-tacamonidine等复杂天然产物的合成路线并通过实验验证，这也是迄今为止在逆合成预测程序辅助下合成的最复杂的分子之一（Nature, 2020, 588, 83–88，点击阅读详细）。其他的验证方法包括将预测的路线与不在该数据集中的现有文献路线进行比较，或者由训练有素的化学家进行双盲测试。

文1-5.jpg

图3. 经实验验证的逆合成规划程序应用的例子。（a）LHASA为化合物18找到来源丰富含手性中心的香茅醇作为原料。（b/c）Chematica预测出的化合物20的合成路线。图片来源：Nat. Rev. Methods Primers

反应预测

要合成一个分子，不仅要知道逆合成步骤的顺序，还要知道每一步的反应条件。由于反应空间通常都是高维的，通过实验确定有效的反应条件会消耗大量的时间和资源。因此，化学家们需要一些计算工具来预测最佳条件和试剂，以确保反应产生所需的产物。这些反应预测工具重点在于高质量的数据和有意义的描述符来表征反应。反应预测模型的输出一般是反应产率或选择性产物的活化自由能的差异（ΔΔG^‡），更复杂的模型还可以直接预测反应产物和反应条件。

反应预测数据集。数据集可以从SciFinder、Reaxys、专利、已发表的化学文献或专有数据库中获取，这样可以在不需要实验资源的情况下创建包含数以百万计数据点的大型数据集。如果可行的话，化学空间覆盖越广泛，数据集的质量就越高。也就是说，用来建立模型的数据应该包括代表可能参数值范围的数据点，以避免对训练集的过拟合或引入偏差。

描述符选择。在建立反应预测模型时，必须考虑有多少维度或反应变量需要被建模，以及如何最有效地表征它们。反应预测常用的变量包括底物、溶剂、温度、添加剂、碱和配体。建模可以对单个反应变量来进行，例如探究配体对反应的影响（控制其它变量不变），也可以同时对多个变量来进行。描述符可分为基于物理的描述符或基于信息的描述符。基于物理的参数，与实验导出的参数相配合，优势在于可解释性，允许化学家从模型中直观地获得额外的物理信息。而基于信息的描述符提供了一种更通用和更容易获取的方法来存储化学信息，因为它们可以通过计算机软件从分子的SMILES计算而不需要3D结构。然而，这种通用性的增加是以可解释性的牺牲为代价的，并且不太适用于表征有机金属配合物。考虑到化学反应的高维性，除了少数流行的反应外，一般反应可用的化学信息相对较少。增加更多的描述符可以提高模型对训练数据的拟合，然而这也可能带来过拟合，而一个过拟合的模型将不能有效地探索训练集化学空间以外的数据。

算法选择。在合成化学中应用的机器学习算法可以分为线性和非线性两类。多元线性回归已被用作探索线性自由能关系和模拟反应选择性的工具，该方法可用于较小的数据集（数十个数据点量级），适合与传统的实验筛选方法一起使用。非线性方法已经成为使用更大数据集建模的流行策略，已在合成化学中测试或应用的非线性算法包括随机森林、k近邻、支持向量机和神经网络。线性模型的代表案例来自美国犹他大学Matthew S. Sigman课题组2019年在Nature 发表的工作（Nature, 2019, 571, 343，点击阅读详细），他们选取多种手性磷酸催化的亲核试剂对亚胺的加成反应进行概念验证，用多变量线性回归来预测反应的对映选择性（图4a）。催化剂和底物用DFT计算得到的分子描述符进行参数化，溶剂使用2D和DFT分子描述符进行表征，输出为对映选择性（ΔΔG^‡）。基于分子描述符，作者通过从文献收集的367个反应构建了综合、Z-亚胺和E-亚胺回归模型（图4b）。非线性模型的代表案例来自Abigail G. Doyle课题组2018年发表的工作（Science, 2018, 360, 186–190，点击阅读详细），他们基于随机森林算法预测Buchwald–Hartwig偶联反应的产率（图5a）。

文1-6.jpg

图4. 手性磷酸催化亚胺亲核加成反应对映选择性的预测。（a）手性磷酸催化亚胺亲核加成反应，其中催化剂和底物用DFT计算得到的分子描述符进行参数化，而溶剂使用2D和DFT分子描述符进行描述。（b）综合、Z-亚胺和E-亚胺回归模型。每个模型包含催化剂和底物性质的描述符组合。（c）与综合模型相比，E/Z-亚胺模型对于样本外反应的预测能力明显更好。图片来源：Nat. Rev. Methods Primers

文1-7.jpg

图5. Pd催化的Buchwald–Hartwig偶联反应产率预测。（a）利用超高通量实验（ultraHTE）建立数据集。（b）随机森林模型的表现。（c）模型预测的重要性排名前五的描述符，其中异恶唑添加剂的¹³C NMR位移对模型性能的贡献最大。（d）异恶唑添加剂在Pd(0)中的竞争性N-O氧化加成机制研究。图片来源：Nat. Rev. Methods Primers

自动化合成

就像自动化合成肽和寡核苷酸一样，功能分子尤其是天然产物的自动化合成也是每个化学家的追求。逆合成和反应预测算法将提供配方，然后通过自动化硬件平台将其转化为现实。虽然不少课题组投入了大量的精力来扩大适用的反应范围，但自动化合成仍处于初级阶段。自动化合成通常包括高通量试验（HTE）和自动化学合成系统两大方向。HTE可以快速、高效、小型化和系统化地生成反应数据点，用于反应预测。自动化学合成系统的目标是尽可能多地自动化合成实验过程，尽量让分子合成不需要用户参与。

高通量自动化合成系统（High-throughput automated synthesis systems）。HTE系统大致分为孔板或微流控两种形式，通常在毫克到微克反应尺度上操作。近年来，含有24或96孔反应器的HTE在工业界和一些课题组已经开始使用。另外，纳米级的超高通量合成可以同时进行数千个反应，但这是“土豪”才用得起的专门设备。高通量目前能实现的反应类型还是有限的，最容易实现的是室温下在低挥发性溶剂中进行的均相反应。加热反应通常也比较容易实现，但冷却、搅拌、光照和气体处理等操作需要额外的处理。例如，为合成丙型肝炎治疗药物elbasvir研究合成关键中间体（55）的脱氢步骤，研究者为了在关键的氧化过程中找到KMnO₄的环境友好替代品，对4种氧化剂、12种光催化剂和2种溶剂进行了高通量筛选，找到光氧化还原条件（图6b）。

文1-8.jpg

图6. 高通量实验探究反应选择性。（a）优化elbasvir合成脱氢步骤。（b）通过在96孔板中高通量实验设计和筛选光氧化还原条件。每个孔中的数字是相对HPLC内标的产率。图片来源：Nat. Rev. Methods Primers

自动化学合成系统（Autonomous systems for chemical synthesis）。与HTE相比，自动化合成系统需要在硬件和软件的构建上进行重大投资，目前很少有系统实现商业化。自动化合成系统目的在于模拟传统的在通风橱中进行的有机合成，在大多数情况下尽量减少人工干预。在自动化合成系统上能实现的反应类型不少，比如紫杉醇的自动化合成早在十多年前就有报道。除了通过串联偶联和环加成反应合成天然产物之外，利用药物化学的常用反应自动化合成不同药物分子也有报道。一方面，自动化合成系统既可以自主优化反应条件。比如最近利物浦大学Andrew I. Cooper课题组的工作，他们研发的自动化合成机器人在8天内进行了688次连续反应，发现光解水产氢的光催化剂（Nature, 2020, 583, 237–241，点击阅读详细）。另一方面，自动化合成系统既又可以用来自动模块化合成目标分子。比如英国格拉斯哥大学的 Leroy Cronin课题组采用Chemputer系统（Science , 2019, 363 , eaav2211）进行盐酸苯海拉明（62）、鲁非酰胺（68）和西地那非（69）的合成。3种药物的合成时间为38-100 h，产率与文献报道的人工合成相当。这一系统的早期版本还被用于机器学习驱动的自动搜索新的化学反应（Nature, 2018, 559, 377，点击阅读详细）。

文1-9.jpg

图7. 使用模块化自动化机器人系统进行有机合成。（a）在Chemputer指导的自主平台上合成盐酸苯海拉明（62）的示意图路线。（b）Chemputer平台提供的设备。（c）平台设备对应示意图。（d）在该平台上合成的另外两个药物活性分子为鲁非酰胺（68）和西地那非（69）。图片来源：Nat. Rev. Methods Primers

笔者简评

对于逆合成和反应预测，高质量的数据集是必不可少的。尽管可以从SciFinder和Reaxys得到大量的反应数据，但许多条目可能不完整或缺少关键信息，如立体化学或产率。而从化学文献中挖掘数据是一个耗时的过程，通常需要从SI中手动提取数据。此外，数据的一致性也可能不确定，失败的反应往往不会被报道。另外，目前在国内有机化学领域建立反应数据库似乎还未引起足够重视，没有很好利用计算机保存实验室的反应数据，这无疑是巨大的浪费和损失——到头来，这些数据会被出版商整合到SciFinder和Reaxys，然后再卖给学术界。对于高通量和自动化合成机器人，目前硬件上能实现的反应已经不少（绝大部分是均相反应），只是成本、标准化和效率问题导致推广困难。而且高通量产生的数据无疑比人产生的数据更稳健、更可靠。畅想未来有一天，化学家设计反应，然后机器人操作完成反应，反应数据会自动被保存下来，用来训练机器学习模型继而引导机器人更好的优化反应条件和合成路线，这无疑会改变整个化学研究的模式。当然，这可能还比较遥远，但改变正在发生。

原文（扫描或长按二维码，识别后直达原文页面，或点此查看原文）：

文1-91.jpg