生物信息学复习题及答案陶士珩e
生物信息学复习题生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA 序列格式, genbank 序列格式, Entrez,BLAST, 查询序列〔query〕 ,打分矩阵〔scoring matrix〕 ,空位〔gap〕 ,空位罚分,E 值, 低复杂度区域,点矩阵〔 dot matrix〕 ,多序列比对,分子钟,系统发育 〔phylogeny〕 ,进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树, 除权配对算法〔UPGMA〕 ,邻接法构树,最大简约法构树,最大似然法构树,一致 树 〔consensus tree〕 , bootstrap, 开放阅读框 〔ORF〕 , 密码子偏性 〔codon bias〕 , 基因预测的从头分析法,结构域〔domain〕 ,超家族,模体〔motif〕 ,序列表谱 〔profile〕 ,PAM 矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB 数据库,GenPept, 折叠子, TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱 〔profile〕 。 二、问答题 1〕生物信息学与计算生物学有什么区别与联系? 2〕试述生物信息学研究的根本方法。 3〕试述生物学与生物信息学的相互关系。 4〕 美国国家生物技术信息中心 〔NCBI〕 的主要工作是什么?请列举 3 个以上 NCBI 维护的数据库。 5〕序列的相似性与同源性有什么区别与联系? 6〕BLAST 套件的 blastn、blastp、blastx、tblastn 和 tblastx 子工具的用途 什么? 7〕简述 BLAST 搜索的算法。 8〕什么是物种的标记序列? 9〕什么是多序列比对过程的三个步骤? 10〕简述构建进化树的步骤。 11〕简述除权配对法〔UPGMA〕的算法思想。 12〕简述邻接法〔NJ〕的算法思想。 13〕简述最大简约法〔MP〕的算法思想。 14〕简述最大似然法〔ML〕的算法思想。 15〕UPGMA 构树法不精确的原因是什么? 16〕在MEGA2 软件中,提供了多种碱基替换距离模型,试列举其中2 种,解释其 含义。 17〕试述 DNA 序列分析的流程及代表性分析工具。 18〕如何用 BLAST 发现新基因? 19〕试述 SCOP 蛋白质分类方案。 20〕试述 SWISS-PROT 中的数据来源。 21〕TrEMBL 哪两个局部? 22〕试述 PSI-BLAST 搜索的 5 个步骤。 三、操作与计算题 1)如何获取访问号为 U49845 的 genbank 文件?解释如下 genbank 文件 的 LOCUS 行提供的信息: LOCUSSCU498455028 bpDNAlinearPLN 21-JUN-1999 2)利用 Entrez 检索系统,对核酸数据搜索,输入如下信息,将获得什 么结果: AF114696:AF114714[ACCN]。 3) 相比使用 BLAST 套件搜索数据库,BLAST2 工具在结果呈现上有什么 优点? 4)MEGA2 如何将其它多序列比对格式文件转化为 MEGE 格式的多序列比 对文件? 5)什么简约信息位点 Pi? 6)以下软件的主要用途是什么? RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural network promoter prediction. 7) 为下面的序列比对确定比对得分:匹配得分= +1,失配得分= 0,空 位得分= -1。 TGTACGGCTATA TC - -CGCCT –TA 8) 用 UPGMA 重建系统发生树,距离矩阵如下: 物种ABCD B9 C811 D121510 E1518135 9〕画出 4 个物种的 3 棵不同的无根树.这 4 个物种在某位置上的核苷酸 分别是 T,T,C和 C,为每个内部节点推断的祖先序列标出最可能的候 选核苷酸,3 棵可能的无根树中有几棵是一样简约的(因为他们有最 小替换数)?有几棵树的替换树是 2?有大于 2 个替换的树吗? 10〕如何将所研究的蛋白质与其他相关蛋白质做结构比对。 答案局部答案局部 一、名词解释:一、名词解释: 生物信息学:生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互 联网为媒介, 数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工 具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对 结果进行解释。 二级数据库:二级数据库:在一级数据库、 实验数据和理论分析的根底上针对特定目标衍生而 来,是对生物学知识和信息的进一步的整理。P11,第 2 段。 FASTAFASTA 序列格式序列格式:是将 DNA 或者蛋白质序列表示为一个带有一些标记的核苷酸或 者氨基酸字符串,大于号〔〕表示一个新文件的开始,其他无特殊要求。 genbankgenbank 序列格式:序列格式:是 GenBank 数据库的根本信息单位, 是最为广泛的生物信息 学序列格式之一。该文件格式按域划分为 4 个局部: 第一局部包含整个记录的信 息〔描述符〕;第二局部包含注释;第三局部是引文区,提供了这个记录的科学 依据;第四局部是核苷酸序列本身,以“//〞结尾。P13,第 2 段。 EntrezEntrez 检索系统:检索系统:是 NCBI 开发的核心检索系统,集成了 NCBI 的各种数据库, 具有链接的数据库多,使用方便,能够进行交叉索引等特点。P83-85P83-85。。 BLASTBLAST::根本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序 列与数据库中的每个序列做相似性比拟。P94 查询序列〔查询序列〔queryquery sequencesequence〕〕:也称被检索序列,用来在数据库中检索并进行相 似性比拟的序列。P98,第 1 段。 打分矩阵打分矩阵 〔〔scoringscoring matrixmatrix〕〕 :: 在相似性检索中对序列两两比对的质量评估方法。 包括基于理论〔如考虑核酸和氨基酸之间的类似性〕和实际进化距离〔如 PAM〕 两类方法。P29,第 2 段。 空位〔空位〔gapgap〕:〕:在序列比对时,由于序列长度不同,需要插入一个或几个位点以 取得最正确比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为 空位。P29,第 2 段。 空位罚分空位罚分: 空位罚分是为了补偿插入和缺失对序列相似性的影响, 序列中的空位 的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响 比照的结果。P37,倒数第 2 段。 E E 值:值:衡量序列之间相似性是否显著的期望值。E 值大小说明了可以找到与查询 序列〔query〕相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到 其他匹配序列,E 值越小意味着序列的相似性偶然发生的时机越小,也即相似性 越能反映真实的生物学意义。P95 低复杂度区域:低复杂度区域: BLAST 搜索的过滤选项。 指序列中包含的重复度高的区域, 如 poly 〔A〕。P100,第一段。 点矩阵〔点矩阵〔dotd