当前位置: X-MOL 学术Gigascience › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Tool recommender system in Galaxy using deep learning
GigaScience ( IF 9.2 ) Pub Date : 2021-01-10 , DOI: 10.1093/gigascience/giaa152
Anup Kumar 1 , Helena Rasche 1 , Björn Grüning 1 , Rolf Backofen 1, 2
Affiliation  

Background Galaxy is a web-based and open-source scientific data-processing platform. Researchers compose pipelines in Galaxy to analyse scientific data. These pipelines, also known as workflows, can be complex and difficult to create from thousands of tools, especially for researchers new to Galaxy. To help researchers with creating workflows, a system is developed to recommend tools that can facilitate further data analysis. Findings A model is developed to recommend tools using a deep learning approach by analysing workflows composed by researchers on the European Galaxy server. The higher-order dependencies in workflows, represented as directed acyclic graphs, are learned by training a gated recurrent units neural network, a variant of a recurrent neural network. In the neural network training, the weights of tools used are derived from their usage frequencies over time and the sequences of tools are uniformly sampled from training data. Hyperparameters of the neural network are optimized using Bayesian optimization. Mean accuracy of 98% in recommending tools is achieved for the top-1 metric. Conclusions The model is accessed by a Galaxy API to provide researchers with recommended tools in an interactive manner using multiple user interface integrations on the European Galaxy server. High-quality and highly used tools are shown at the top of the recommendations. The scripts and data to create the recommendation system are available under MIT license at https://github.com/anuprulez/galaxy_tool_recommendation.

中文翻译:

Galaxy中使用深度学习的工具推荐系统

背景 Galaxy 是一个基于网络的开源科学数据处理平台。研究人员在 Galaxy 中构建管道以分析科学数据。这些管道(也称为工作流程)可能很复杂,而且很难通过数千种工具创建,尤其是对于 Galaxy 的新研究人员而言。为了帮助研究人员创建工作流程,开发了一个系统来推荐可以促进进一步数据分析的工具。结果 开发了一个模型,通过分析欧洲银河服务器上的研究人员组成的工作流,使用深度学习方法推荐工具。工作流中的高阶依赖关系,表示为有向无环图,是通过训练门控循环单元神经网络(循环神经网络的一种变体)来学习的。在神经网络训练中,使用的工具的权重是从它们随时间的使用频率得出的,并且工具的序列是从训练数据中统一采样的。神经网络的超参数使用贝叶斯优化进行优化。top-1 指标的推荐工具平均准确率达到 98%。结论 该模型由 Galaxy API 访问,使用欧洲 Galaxy 服务器上的多个用户界面集成,以交互方式为研究人员提供推荐的工具。建议的顶部显示了高质量和高度使用的工具。创建推荐系统的脚本和数据可在 MIT 许可下在 https://github.com/anuprulez/galaxy_tool_recommendation 获得。神经网络的超参数使用贝叶斯优化进行优化。top-1 指标的推荐工具平均准确率达到 98%。结论 该模型由 Galaxy API 访问,使用欧洲 Galaxy 服务器上的多个用户界面集成,以交互方式为研究人员提供推荐的工具。建议的顶部显示了高质量和高度使用的工具。创建推荐系统的脚本和数据可在 MIT 许可下在 https://github.com/anuprulez/galaxy_tool_recommendation 获得。神经网络的超参数使用贝叶斯优化进行优化。top-1 指标的推荐工具平均准确率达到 98%。结论 该模型由 Galaxy API 访问,使用欧洲 Galaxy 服务器上的多个用户界面集成,以交互方式为研究人员提供推荐的工具。建议的顶部显示了高质量和高度使用的工具。创建推荐系统的脚本和数据可在 MIT 许可下在 https://github.com/anuprulez/galaxy_tool_recommendation 获得。结论 该模型由 Galaxy API 访问,使用欧洲 Galaxy 服务器上的多个用户界面集成,以交互方式为研究人员提供推荐的工具。建议的顶部显示了高质量和高度使用的工具。创建推荐系统的脚本和数据可在 MIT 许可下在 https://github.com/anuprulez/galaxy_tool_recommendation 获得。结论 该模型由 Galaxy API 访问,使用欧洲 Galaxy 服务器上的多个用户界面集成,以交互方式为研究人员提供推荐的工具。建议的顶部显示了高质量和高度使用的工具。创建推荐系统的脚本和数据可在 MIT 许可下在 https://github.com/anuprulez/galaxy_tool_recommendation 获得。
更新日期:2021-01-10
down
wechat
bug