━━━━
2005年,下一代基因测序技术开始改变遗传学研究领域。获取一个人完整的基因组变得既快速又相对廉价。基因信息数据库以太字节为单位快速增长,医生与研究人员急切地需要一种方法对信息进行有效筛选,寻找某种紊乱失调的原因或寻找线索判断病人可能会对治疗产生什么样的反应。
过去几年间,多家竞相构建首个DNA搜索引擎的公司迅速涌现。它们都有不同的战略,有些甚至有自己专有的基因信息数据库,但大多数公司还是忙于链接到足够多的基因数据库,这样用户便能快速找到大量基因突变数据。大部分公司还精心设计了搜索算法,利用相关生物医学文献补充基因信息。但在早期网络时代,在谷歌称雄之前,没有一家公司成为明确的赢家。
ViaGenetics公司生物信息学副总裁迈克尔•冈萨雷斯(MichaelGonzalez)说,制作功能性搜索引擎是一个典型的大数据问题。该公司曾计划重新启动其搜索平台。在医生或研究人员可以使用数据之前,必须对基因数据进行整理,以便人们能够看懂并进行搜索。第一步就是把数据放入一个被称为“变异识别格式”(VCF)的标准模式中。作为原始数据,一个人完整的基因组测序约100千兆字节,所以即便每天只增添10位病人的基因组,这个数据库也很快就会失控。但VCF文件更为紧凑,每个基因组只有几百兆字节,这能够帮助研究人员在短时间内发现他们想找的变异。与完全测序基因组不同的是,VCF文件只指向一个人偏离标准(2001年人类基因组计划最初编制的基因组)的基因数据。
有了VCF,搜索引擎公司自己筛选基因组以准确寻找基因突变就不算挑战了。大部分公司把它们的资源用于与网络上其他数据库(例如生物医学研究档案库PubMed或各种电子医学记录)里有关某一基因突变的补充信息进行无缝汇编。许多这样的工具已很好地调整了算法,根据可信度或相关性进行排序。Tute Genomics公司位于美国犹他州普罗沃市,是另一家设计基因组搜索引擎的公司,其首席科学官戴维•米特曼(David Mittelman)表示:“希望能把(基因组)那个位置上的基因突变信息都整合在一起并快速作出评测。”
━━━━
为了扩展有关被测基因组的信息,位于佛罗里达州迈阿密海滩的ViaGenetics公司对其平台进行了更新,这对那些希望跨机构协作的研究人员非常有用。有了ViaGenetics的工具,研究人员“能够与其他用户共享他们的数据,这样其他人便能发现这些项目、请求访问并进行协作,”冈萨雷斯这样说道,“它能帮助人们在不同研究人员和机构之间进行联接。”对于没有大量基因组数据库的小型实验室或来自不同大学但研究同一个基因突变的研究人员来说,这特别有用。
虽然基因组搜索行业现在着重为科学家提供服务,但并不会一直如此。米特曼设想,Tute Genomics公司最终会直接为消费者提供服务。他表示,人们为了更了解自己,已经开始想获得有关自己基因组的信息了,但大部分公司还没有把普通人看作它们的主要客户。为了进行那样的改变,工具需要更加直观、更方便用户使用。“向人们提供不易解读的数据或使用不标准的术语很可能会让他们感到困惑。”米特曼说。对普通用户来说,隐私也是一个备受关注的问题;米特曼表示,Tute用户上传的信息不会被永久存储,但如果该平台向大众开放,用户还需要更多的保障。
这个行业即将出现进一步的发展。从最初的DNA测序到向用户展示最终可搜索结果,ViaGenetics和Tute公司都希望能够独立操作整个流程。“就像20世纪90年代的计算机行业,你得分别找不同的提供商购买视频卡和母板,然后试着把它们组装在一起,基因组数据分析和解读市场也很分散。”米特曼如此说道,“很快这个领域就会向计算机行业那样整合起来。”
作者:Alexandra Ossola
IEEE Spectrum
《科技纵览》
官方微信公众平台
往期推荐