生物信息学复习题及答案陶士珩

生物信息学复习题生物信息学复习题一、名词解释生物信息学, 二级数据库, FASTA 序列格式, genbank 序列格式, Entrez，BLAST，查询序列（query），打分矩阵（scoring matrix），空位（gap），空位罚分，E 值, 低复杂度区域，点矩阵（ dot matrix），多序列比对，分子钟，系统发育（phylogeny），进化树的二歧分叉结构，直系同源，旁系同源，外类群，有根树，除权配对算法（UPGMA），邻接法构树，最大简约法构树，最大似然法构树，一致树（consensus tree）， bootstrap，开放阅读框（ORF），密码子偏性（codon bias），基因预测的从头分析法，结构域（domain），超家族，模体（motif），序列表谱（profile），PAM 矩阵，BLOSUM，PSI-BLAST，RefSeq，PDB 数据库，GenPept，折叠子， TrEMBL，MMDB，SCOP，PROSITE，Gene Ontology Consortium，表谱（profile）。二、问答题 1）生物信息学与计算生物学有什么区别与联系？ 2）试述生物信息学研究的基本方法。 3）试述生物学与生物信息学的相互关系。 4）美国国家生物技术信息中心（NCBI）的主要工作是什么？请列举 3 个以上 NCBI 维护的数据库。 5）序列的相似性与同源性有什么区别与联系？ 6）BLAST 套件的 blastn、blastp、blastx、tblastn 和 tblastx 子工具的用途什么？ 7）简述 BLAST 搜索的算法。 8）什么是物种的标记序列？ 9）什么是多序列比对过程的三个步骤？ 10）简述构建进化树的步骤。 11）简述除权配对法（UPGMA）的算法思想。 12）简述邻接法（NJ）的算法思想。 13）简述最大简约法（MP）的算法思想。 14）简述最大似然法（ML）的算法思想。 15）UPGMA 构树法不精确的原因是什么？ 16）在MEGA2 软件中，提供了多种碱基替换距离模型，试列举其中2 种，解释其含义。 17）试述 DNA 序列分析的流程及代表性分析工具。 18）如何用 BLAST 发现新基因？ 19）试述 SCOP 蛋白质分类方案。 20）试述 SWISS-PROT 中的数据来源。 21）TrEMBL 哪两个部分？ 22）试述 PSI-BLAST 搜索的 5 个步骤。三、操作与计算题 1）如何获取访问号为 U49845 的 genbank 文件？解释如下 genbank 文件的 LOCUS 行提供的信息： LOCUSSCU498455028 bpDNAlinearPLN 21-JUN-1999 2）利用 Entrez 检索系统，对核酸数据搜索，输入如下信息，将获得什么结果： AF114696:AF114714[ACCN]。 3) 相比使用 BLAST 套件搜索数据库，BLAST2 工具在结果呈现上有什么优点？ 4）MEGA2 如何将其它多序列比对格式文件转化为 MEGE 格式的多序列比对文件？ 5）什么简约信息位点 Pi？ 6）以下软件的主要用途是什么？ RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural network promoter prediction. 7) 为下面的序列比对确定比对得分：匹配得分= +1，失配得分= 0，空位得分= -1。 TGTACGGCTATA TC - -CGCCT –TA 8) 用 UPGMA 重建系统发生树，距离矩阵如下：物种ABCD B9 C811 D121510 E1518135 9）画出 4 个物种的 3 棵不同的无根树.这 4 个物种在某位置上的核苷酸分别是 T,T,C和 C,为每个内部节点推断的祖先序列标出最可能的候选核苷酸，3 棵可能的无根树中有几棵是一样简约的(因为他们有最小替换数)?有几棵树的替换树是 2?有大于 2 个替换的树吗? 10）如何将所研究的蛋白质与其他相关蛋白质做结构比对。答案部分答案部分一、名词解释：一、名词解释：生物信息学：生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。二级数据库：二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。P11，第 2 段。 FASTAFASTA 序列格式序列格式：是将 DNA 或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（）表示一个新文件的开始，其他无特殊要求。 genbankgenbank 序列格式：序列格式：是 GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为 4 个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。P13，第 2 段。 EntrezEntrez 检索系统：检索系统：是 NCBI 开发的核心检索系统，集成了 NCBI 的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。P83-85P83-85。。 BLASTBLAST：：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 查询序列（查询序列（queryquery sequencesequence））：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P98，第 1 段。打分矩阵打分矩阵（（scoringscoring matrixmatrix））：：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如 PAM）两类方法。P29，第 2 段。空位（空位（gapgap）：）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29，第 2 段。空位罚分空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37，倒数第 2 段。 E E 值：值：衡量序列之间相似性是否显著的期望值。E 值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E 值越接近零，越不可能找到其他匹配序列，E 值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P95 低复杂度区域：低复杂度区域： BLAST 搜索的过滤选项。指序列中包含的重复度高的区域，如 poly （A）。P100，第一段。点矩阵（点矩阵（dotdo