当前位置: X-MOL 学术J. Chem. Inf. Model. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Coupling Matched Molecular Pairs with Machine Learning for Virtual Compound Optimization
Journal of Chemical Information and Modeling ( IF 5.6 ) Pub Date : 2017-11-27 00:00:00 , DOI: 10.1021/acs.jcim.7b00298
Samo Turk 1 , Benjamin Merget 1 , Friedrich Rippmann 2 , Simone Fulle 1
Affiliation  

Matched molecular pair (MMP) analyses are widely used in compound optimization projects to gain insights into structure–activity relationships (SAR). The analysis is traditionally done via statistical methods but can also be employed together with machine learning (ML) approaches to extrapolate to novel compounds. The here introduced MMP/ML method combines a fragment-based MMP implementation with different machine learning methods to obtain automated SAR decomposition and prediction. To test the prediction capabilities and model transferability, two different compound optimization scenarios were designed: (1) “new fragments” which occurs when exploring new fragments for a defined compound series and (2) “new static core and transformations” which resembles for instance the identification of a new compound series. Very good results were achieved by all employed machine learning methods especially for the new fragments case, but overall deep neural network models performed best, allowing reliable predictions also for the new static core and transformations scenario, where comprehensive SAR knowledge of the compound series is missing. Furthermore, we show that models trained on all available data have a higher generalizability compared to models trained on focused series and can extend beyond chemical space covered in the training data. Thus, coupling MMP with deep neural networks provides a promising approach to make high quality predictions on various data sets and in different compound optimization scenarios.

中文翻译:

将匹配的分子对与机器学习耦合以实现虚拟化合物优化

匹配分子对(MMP)分析广泛用于化合物优化项目中,以深入了解结构-活性关系(SAR)。传统上,该分析是通过统计方法完成的,但也可以与机器学习(ML)方法一起使用,以推断出新化合物。这里介绍的MMP / ML方法将基于片段的MMP实现与不同的机器学习方法结合在一起,以获得自动SAR分解和预测。为了测试预测能力和模型的可移植性,设计了两种不同的化合物优化方案:(1)“新片段”,在探索已定义化合物系列的新片段时出现;(2)“新静态核心和转换”,例如新化合物系列的鉴定。所有采用的机器学习方法都取得了很好的效果,尤其是对于新片段的情况,但是整体深度神经网络模型表现最好,因此对于缺少复合序列的全面SAR知识的新静态核和变换场景,也可以进行可靠的预测。此外,我们显示,与在重点系列上训练的模型相比,在所有可用数据上训练的模型具有更高的通用性,并且可以扩展到训练数据所涵盖的化学空间之外。因此,将MMP与深度神经网络耦合提供了一种有前途的方法,可以对各种数据集和不同的化合物优化方案进行高质量的预测。还可以为新的静态核和转换场景提供可靠的预测,因为该场景缺少对复合序列的全面SAR知识。此外,我们显示,与在重点系列上训练的模型相比,在所有可用数据上训练的模型具有更高的通用性,并且可以扩展到训练数据所涵盖的化学空间之外。因此,将MMP与深度神经网络耦合提供了一种有前途的方法,可以对各种数据集和不同的化合物优化方案进行高质量的预测。还可以为新的静态核和转换场景提供可靠的预测,因为该场景缺少对复合序列的全面SAR知识。此外,我们显示,与在重点系列上训练的模型相比,在所有可用数据上训练的模型具有更高的通用性,并且可以扩展到训练数据所涵盖的化学空间之外。因此,将MMP与深度神经网络耦合提供了一种有前途的方法,可以对各种数据集和不同的化合物优化方案进行高质量的预测。我们显示,与在重点系列上训练的模型相比,在所有可用数据上训练的模型具有更高的通用性,并且可以扩展到训练数据所涵盖的化学空间之外。因此,将MMP与深度神经网络耦合提供了一种有前途的方法,可以对各种数据集和不同的化合物优化方案进行高质量的预测。我们显示,与在重点系列上训练的模型相比,在所有可用数据上训练的模型具有更高的通用性,并且可以扩展到训练数据所涵盖的化学空间之外。因此,将MMP与深度神经网络耦合提供了一种有前途的方法,可以对各种数据集和不同的化合物优化方案进行高质量的预测。
更新日期:2017-11-27
down
wechat
bug