首 页 - ┆ 小小说社会科学搜榜改进建议哲学宗教政治法律文化科教语言文字医学管理资源艺术资料数理化天文地球专业技术教育资源建筑房地产
当前位置:e书联盟 > 医学 > 医药 > 医学ppt
blast简介及其应用.ppt
运行环境:Win9X/Win2000/WinXP/Win2003/
医学语言:简体中文
医学类型:国产软件 - 医药 - 医学ppt
授权方式:共享版
医学大小:3.10 MB
推荐星级:
更新时间:2019-12-27 20:50:38
联系方式:暂无联系方式
官方主页:Home Page
解压密码:点击这里
  • 好的评价 此医学真真棒!就请您
      0%(0)
  • 差的评价 此医学真差劲!就请您
      0%(0)

blast简介及其应用.ppt介绍

生物序列的相似性搜索 -blast 简介及其应用内容提要1. 基本概念相似性,同源性2.Blast 介绍Blast 资源和相关问题3.Blast 的应用网络版,单机版4. 深入了解Blast( 改进程序,算法基础) 5. 其他的序列相似性搜索工具(fasta )生物序列的相似性生物序列的同源性同源性(homology) :指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80 %都是不科学的。序列相似性比较和序列同源性分析序列相似性比较:就是将待研究序列与DNA 或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST 、FASTA 等;序列同源性分析:是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL 等;Blast 简介(一)BLAST 是由美国国立生物技术信息中心(NCBI )开发的一个基于序列相似性的数据库搜索程序。BLAST 是“局部相似性基本查询工具”(Basic Local Alignment Search Tool) 的缩写。Blast 简介(二)Blast 是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择blastn 程序。下表列出了主要的blast 程序。主要的blast 程序Blast 相关的问题怎么获得blast 服务,怎么使用的问题?为什么使用blast ,可以获得什么样的信息?其他问题:实际使用时选择哪种方式(网络,本地化),参数的选择,结果的解释…Blast 资源1.NCBI 主站点:http://www.book118.com.nih.gov/BLAST/( 网络版) ftp://www.book118.com.nih.gov/blast/ ( 单机版) 2. 其他站点:http://www.book118.com.cn/blast/ http://www.book118.com.ac.uk/ncbi_blast.html http://www.book118.com/blast/ (果蝇)…Blast 结果给出的信息Blast 结果会列出跟查询序列相似性比较高,符合限定要求的序列结果,根据这些结果可以获取以下一些信息。1. 查询序列可能具有某种功能2. 查询序列可能是来源于某个物种3. 查询序列可能是某种功能基因的同源基因…这些信息都可以应用到后续分析中。两种版本的Blast 比较(一)网络版本包括NCBI 在内的很多网站都提供了在线的blast 服务,这也是我们最经常用到的blast 服务。网络版本的blast 服务就有方便,容易操作,数据库同步更新等优点。但是缺点是不利于操作大批量的数据,同时也不能自己定义搜索的数据库。两种版本的Blast 比较(二)单机版单机版的blast 可以通过NCBI 的ftp 站点获得,有适合不同平台的版本(包括linux ,dos 等)。获得程序的同时必须获取相应的数据库才能在本地进行blast 分析。单机版的优点是可以处理大批的数据,可以自己定义数据库,但是需要耗费本地机的大量资源,此外操作也没有网络版直观、方便,需要一定的计算机操作水平。NCBI 提供的Blast 服务Blast 任务提交表单(一)Blast 任务提交表单(二)Blast 任务提交表单(三)提交任务结果页面(一)结果页面(二)结果页面(三)一个具体的例子(blastp )假设以下为一未知蛋白序列>query_seq MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA 我们通过blast 搜索来获取一些这个序列的信息。具体步骤1. 登陆blast 主页http://www.book118.com.nih.gov/BLAST/ 2. 根据数据类型,选择合适的程序3. 填写表单信息4. 提交任务5. 查看和分析结果分析过程(二)分析过程(三)分析过程(四)分析过程(五)分析过程(六)分析过程(七)分析过程(八)单机版的Blast 使用(一)为什么使用单机版的Blast ?1. 特殊的数据库要求。2. 涉及序列的隐私与价值。3. 批量处理4. 其他原因??单机版的Blast 使用(二)单机版Blast 的基本操作过程1. 下载单机版的Blast 程序ftp://www.book118.com.nih.gov/blast/executables/ 目录下,下载对应的操作系统版本。2. 解压程序包(blast-2.28-ia32-lwww.book118.com) 命令是: $ tar zxvf blast-2.28-ia32-lwww.book118.com	 单机版的Blast 使用(三)3. 获取Blast 数据库	a. 直接从ncbi 下载	ftp://www.book118.com.nih.gov/blast/db/ 		b. 用Blast 程序包提供的formatdb 工具自己格式化序列数据成数据库。 假设有一序列数据(sequence.fa ,多序列,fasta 格式),欲自己做成Blast 数据库,典型的命令如下:单机版的Blast 使用(四)核酸序列:$ ./formatdb –i sequence.fa –p F –o T/F –n db_name 蛋白序列:$ ./formatdb –i sequence.fa –p T –o T/F –n db_name 单机版的Blast 使用(五)4. 执行Blast 比对 获得了单机版的Blast 程序,解压开以后,如果有了相应的数据库(db ),那么就可以开始执行Blast 分析了。 单机版的Blast 程序包,把基本的blast 分析,包括blastn ,blastp ,blastx 等都整合到了blastall 一个程序里面。单机版的Blast 使用(六)以下是一个典型的blastn 分析命令:( 待分析序列seq.fa ,数据库nt_db) $./blastall –p blastn –i seq.fa -d nt_db –w 7 –e 10 –o 程序名 输入数据库窗口e 值输出www.book118.com 该命令的意思是,对seq.fa 文件中的核酸序列对nt_db 数据库执行blastn 搜索,窗口大小是7,e值限制是10 ,输出的结果保存到文件www.book118.com 中。单机版的Blast 使用(七)5.Blastall 的常用参数-p 程序名应该是blastn ,blastp ,blastx ,tblastn ,tblastx 中的一个-d 数据库名称,默认nr -i 查询序列文件,默认stdin -e E 值限制,默认10 -o 结果输出文件,默认stdout -F 过滤选项,默认T -a 选择进行运算的CPU 个数进一步深入Blast 1.blast2 2.Megablast 3.Psi-blast 4. 其他(rpsblast,blastclust 等) Blast2 两个序列的blast 比对,给定两个序列,相互进行blast 比对。能快速检查两个序列是否存在相似性片断或者是否一致。这比起全序列比对要快很多。Megablast megablast 采用了贪婪算法(greedy algorithm), 它连接了多个查询序列进行一次搜索比对,这样节省了很多搜索数据库的时间。主要针对核酸序列。是blast 经过优化后,适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较,比一般的相似性搜索程序要快10 倍,可以很快的完成两组大数据的比对。PSI-blast Position specific iterative BLAST (PSI-BLAST) 位点特异的迭代blast 搜索,主要针对蛋白序列。第一次blast 搜索后,结果中最相似的序列重新构建PSSM ( 位点特异性打分矩阵),然后再使用该矩阵进行第二轮blast 搜索,再调整矩阵,搜索,如此迭代。最终高度保守的区域就会得到比较高的分值,而不保守的区域则分数降低,趋近0。这样可以提高blast 搜索的灵敏度。Blast 的算法基础基本思想是:通过产生数量更少的但质量更好的增强点来提高速度。BALST 算法是建立在严格的统计学的基础之上的。它集中于发现具有较高的相似性的局部比对,且局部比对中不能含有空位(blast2.0 引入了允许插入gap 的算法)。由于局部比对的限制条件,在大多数情况下比对会被分解为若干个明显的HSP(High-score Sequence Pairs) 。Blast 的算法流程Blast 的算法(一)首先确定一个终止值S、步长参数w和一个阈值T。然后软件会在考虑搜索背景性质的基础上计算出合适的S值。使要比对的序列中包含一个分值不小于S的HSP 。Blast 的算法(二)2. 引入邻近字串的思想:不需要字串确切地匹配,当有一个字串的分值高于T时,BALST 就宣称找到了一个选中的字串。为了提高速度,允许较长的字串长度W。W值很少变化,这样,T值就成为权衡速度和敏感度的参数。Blast 的算法(三)一个字串选中后,程序会进行没有空位的局部寻优,比对的最低分值是S,当比对延伸时会遇到一些负的分值,使得比对的分值下降,当下降的分值小于S时,命中的延伸就会终止。这样系统会减少消耗于毫无指望的选中延伸的时间,使系统的性能得以改进。Blast 的改进(一)在1997 年提出了对BLAST 程序的改进算法,提高了搜索速度、敏感度和实用性。可处理间隔(gap) 的gapped BLAST 算法PSI-BLAST 算法对一个选中字串长度标准的延伸利用profile( 表头文件)的数据结构来进行搜索Blast 的改进(二)以两个步长各为w的字串开始搜索。若两个字窜在序列上不重叠,并且位于同一对角线上,并且距离在A之内,则将这两个字串联起来作为搜索的起点。执行通常的BLAST 算法,使用一种不同的记分方式,根据高度显著比对(HSPs) 的最高分值建立一个最初的profile 。Blast 的改进(三)根据该profile 反复利用BLAST 算法对数据库进行搜索,这一步实际上是根据表头文件的统计结果扩展局部比对。这一过程是反复进行的,直到再没有发现新的有意义的匹配为止。由于在每一轮都会有新的片段加入,因此在操作过程中profile 需要在每一个循环结束之后更新。其他的序列相似性搜索工具 -fasta FASTA 算法基础基本思想是:一个能够揭示出真实的序列关系的比对至少包含一个两个序列都拥有的字(片断),把查询序列中的所用字编成索引,然后在数据库搜索时查询这些索引,以检索出可能的匹配,这样那些命中的字很快被鉴定出来。FASTA 算法(一)确定参数ktup ,在两个序列中查找长度为ktup 的、相匹配的片段(增强点)。为了提高速度,可以通过查询表格或hash 表来完成,然后在表格中搜索与另一条序列相匹配的、长度为ktup 的片段。FASTA 算法(二)2. 在同一条对角线中临近的增强点成为一个增强段。每一个增强点都赋予一个正的分值,一个增强段中相邻的两个增强点之间的不匹配区域赋予一定

下载此电子书资料需要扣除0点,

电子书评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论
·上一医学:BiPAP 临床使用.ppt
·下一医学:B超第三章胆系疾病x.ppt

下载说明

* 即日起,本站所有电子书免费、无限量下载下载,去掉了每日50个下载的限制
* 本站尽量竭尽努力将电子书《blast简介及其应用.ppt》提供的版本是完整的,全集下载
* 本站站内提供的所有电子书、E书均是由网上搜集,若侵犯了你的版权利益,敬请来信通知我们!

下载栏目导航

Copyright © 2005-2020 www.book118.com. All Rights Reserved