NCBI BLAST是用于基因组学研究中的必要工具,BLAST全称为Basic Local Alignment Search Tool,中文意思为基本局部比对搜索工具。作为一个快速、准确且易于使用的数据库查询工具,NCBI BLAST可以帮助生物学家以各种方式研究DNA、RNA和蛋白质序列的相似性。
BLAST的基础原理
BLAST的基础原理是局部序列比对,其通过利用简单的比对算法,将一个长度比较短的序列与大型数据库中的最佳匹配进行比对。作为一种基于统计的比对算法,BLAST利用了两个主要的组成部分:查询序列和数据库。查询序列包括要进行比对的小型、限制长度的序列,而数据库则是到现在为止所有已知的DNA、RNA或蛋白质序列库的集合。
在BLAST的比对过程中,程序首先将查询序列的固定长度的部分(通常称为查询-包含-片段或q-快)与数据库搜索,从而确定与查询序列最为相似的一组比对序列。然后,BLAST根据这些序列的共同特征,推断出对于原始查询序列的最佳匹配。
BLAST的多种应用
BLAST可以帮助研究者完成许多不同的基因组学任务。BLAST可以被用于:
发现新的基因
确定新的基因结构
鉴定已知基因的功能以及其编码的蛋白质家族
在多种物种之间比较特定的基因或蛋白质序列
确定基因组的进化关系
确定基因组序列的进化之路
功能的不断完善
BLAST的性能不断提高,并且其新版本会不断推出新功能。NCBI发布的最新版本包括:protein BLAST(pBLAST)、nucleotide BLAST(nBLAST)、高度相似序列搜索工具(MEGABLAST)以及专门用于搜索EST的EST BLAST等。
其中,MEGABLAST利用预先处理数据的方式,加快了比对速度。EST BLAST可以通过比较EST(表达序列标记)和基因组预测的序列,寻找比对结果。此外,BLAST还拥有很强的基于词串的搜索工具,可以找到一些翻译调位点在其中,协助研究者更好地理解进化、生物学、遗传学方面的问题。
总结
BLAST在基因组学研究中拥有很重要的地位,作为一种能够快速、准确地搜索DNA、RNA和蛋白质序列的工具,其被广泛应用于许多领域。BLAST的不断增强和完善,为生物学家们提供了更加高效、准确的数据处理和分析工具,进一步促进了基因组学领域的发展。