当前位置: X-MOL 学术J. Chem. Inf. Model. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
iRaPCA and SOMoC: Development and Validation of Web Applications for New Approaches for the Clustering of Small Molecules
Journal of Chemical Information and Modeling ( IF 5.6 ) Pub Date : 2022-06-10 , DOI: 10.1021/acs.jcim.2c00265
Denis N Prada Gori 1 , Manuel A Llanos 1 , Carolina L Bellera 1 , Alan Talevi 1 , Lucas N Alberca 1
Affiliation  

The clustering of small molecules implies the organization of a group of chemical structures into smaller subgroups with similar features. Clustering has important applications to sample chemical datasets or libraries in a representative manner (e.g., to choose, from a virtual screening hit list, a chemically diverse subset of compounds to be submitted to experimental confirmation, or to split datasets into representative training and validation sets when implementing machine learning models). Most strategies for clustering molecules are based on molecular fingerprints and hierarchical clustering algorithms. Here, two open-source in-house methodologies for clustering of small molecules are presented: iterative Random subspace Principal Component Analysis clustering (iRaPCA), an iterative approach based on feature bagging, dimensionality reduction, and K-means optimization; and Silhouette Optimized Molecular Clustering (SOMoC), which combines molecular fingerprints with the Uniform Manifold Approximation and Projection (UMAP) and Gaussian Mixture Model algorithm (GMM). In a benchmarking exercise, the performance of both clustering methods has been examined across 29 datasets containing between 100 and 5000 small molecules, comparing these results with those given by two other well-known clustering methods, Ward and Butina. iRaPCA and SOMoC consistently showed the best performance across these 29 datasets, both in terms of within-cluster and between-cluster distances. Both iRaPCA and SOMoC have been implemented as free Web Apps and standalone applications, to allow their use to a wide audience within the scientific community.

中文翻译:

iRaPCA 和 SOMoC:开发和验证用于小分子聚类新方法的 Web 应用程序

小分子的聚集意味着将一组化学结构组织成具有相似特征的较小亚组。聚类对于以代表性方式对化学数据集或库进行采样具有重要应用(例如,从虚拟筛选命中列表中选择化学上多样化的化合物子集以提交实验确认,或将数据集拆分为具有代表性的训练和验证集在实现机器学习模型时)。大多数分子聚类策略都是基于分子指纹和层次聚类算法。在这里,介绍了两种用于小分子聚类的开源内部方法:迭代随机子空间主成分分析聚类 (iRaPCA),一种基于特征袋装、降维的迭代方法,和 K 均值优化;轮廓优化分子聚类 (SOMoC),它将分子指纹与均匀流形近似和投影 (UMAP) 和高斯混合模型算法 (GMM) 相结合。在基准测试中,我们在 29 个包含 100 到 5000 个小分子的数据集上检查了这两种聚类方法的性能,并将这些结果与其他两种著名的聚类方法 Ward 和 Butina 给出的结果进行了比较。iRaPCA 和 SOMoC 在这 29 个数据集中始终表现出最佳性能,无论是在集群内还是集群间距离方面。iRaPCA 和 SOMoC 都已作为免费的 Web 应用程序和独立应用程序实施,以允许科学界的广大受众使用它们。轮廓优化分子聚类 (SOMoC),它将分子指纹与均匀流形近似和投影 (UMAP) 和高斯混合模型算法 (GMM) 相结合。在基准测试中,我们在 29 个包含 100 到 5000 个小分子的数据集上检查了这两种聚类方法的性能,并将这些结果与其他两种著名的聚类方法 Ward 和 Butina 给出的结果进行了比较。iRaPCA 和 SOMoC 在这 29 个数据集中始终表现出最佳性能,无论是在集群内还是集群间距离方面。iRaPCA 和 SOMoC 都已作为免费的 Web 应用程序和独立应用程序实施,以允许科学界的广大受众使用它们。轮廓优化分子聚类 (SOMoC),它将分子指纹与均匀流形近似和投影 (UMAP) 和高斯混合模型算法 (GMM) 相结合。在基准测试中,我们在 29 个包含 100 到 5000 个小分子的数据集上检查了这两种聚类方法的性能,并将这些结果与其他两种著名的聚类方法 Ward 和 Butina 给出的结果进行了比较。iRaPCA 和 SOMoC 在这 29 个数据集中始终表现出最佳性能,无论是在集群内还是集群间距离方面。iRaPCA 和 SOMoC 都已作为免费的 Web 应用程序和独立应用程序实施,以允许科学界的广大受众使用它们。它将分子指纹与均匀流形近似和投影 (UMAP) 和高斯混合模型算法 (GMM) 相结合。在基准测试中,我们在 29 个包含 100 到 5000 个小分子的数据集上检查了这两种聚类方法的性能,并将这些结果与其他两种著名的聚类方法 Ward 和 Butina 给出的结果进行了比较。iRaPCA 和 SOMoC 在这 29 个数据集中始终表现出最佳性能,无论是在集群内还是集群间距离方面。iRaPCA 和 SOMoC 都已作为免费的 Web 应用程序和独立应用程序实施,以允许科学界的广大受众使用它们。它将分子指纹与均匀流形近似和投影 (UMAP) 和高斯混合模型算法 (GMM) 相结合。在基准测试中,我们在 29 个包含 100 到 5000 个小分子的数据集上检查了这两种聚类方法的性能,并将这些结果与其他两种著名的聚类方法 Ward 和 Butina 给出的结果进行了比较。iRaPCA 和 SOMoC 在这 29 个数据集中始终表现出最佳性能,无论是在集群内还是集群间距离方面。iRaPCA 和 SOMoC 都已作为免费的 Web 应用程序和独立应用程序实施,以允许科学界的广大受众使用它们。已经在包含 100 到 5000 个小分子的 29 个数据集上检查了这两种聚类方法的性能,并将这些结果与其他两种著名的聚类方法 Ward 和 Butina 给出的结果进行了比较。iRaPCA 和 SOMoC 在这 29 个数据集中始终表现出最佳性能,无论是在集群内还是集群间距离方面。iRaPCA 和 SOMoC 都已作为免费的 Web 应用程序和独立应用程序实施,以允许科学界的广大受众使用它们。已经在包含 100 到 5000 个小分子的 29 个数据集上检查了这两种聚类方法的性能,并将这些结果与其他两种著名的聚类方法 Ward 和 Butina 给出的结果进行了比较。iRaPCA 和 SOMoC 在这 29 个数据集中始终表现出最佳性能,无论是在集群内还是集群间距离方面。iRaPCA 和 SOMoC 都已作为免费的 Web 应用程序和独立应用程序实施,以允许科学界的广大受众使用它们。
更新日期:2022-06-10
down
wechat
bug