生物信息学复习资料

一、名词解释一、名词解释(31(31 个个) ) 1.生物信息学: 广义：应用信息科学的方法和技术，研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。 2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对：研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。 5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。指的是不同物种之间的同源性，例如蛋白质的同源性， DNA 序列的同源性。（来自百度） 6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。（来自百度） 7.FASTA 序列格式：将一个 DNA 或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。 8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。（来自百度） 9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。 10. 空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。（来自百度） 11. 表达序列标签：通过从 cDNA 文库中随机挑选的克隆进行测序所获得的部分 cDNA的 3’或 5’端序列。（来自文献） 12. Gene Ontology 协会： 13. HMM 隐马尔可夫模型：将核苷酸序列看成一个随机序列，DNA 序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的 Markov 模型。 14. 一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释 15. 序列一致性：指同源 DNA 顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16. 序列相似性：指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。 17. Blastn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。（来自百度） 18. Blastp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。（来自百度） 19. Blastx：是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。（来自百度） 20. Tblastn：是蛋白序列到核酸库中的一种查询。与 BLASTX 相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。（来自百度） 21. Tblastx：是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6 条可能的蛋白序列），这样每次比对会产生 36 种比对阵列。（来自百度） 22. KEGG：京都基因与基因组百科全书，是系统分析基因功能、基因组信息的数据库，它整合了基因组学、生物化学以及系统功能组学的信息，有助于研究者把基因及表达信息作为一个整体网络进行研究。 23. ChIP-Seq：就是通过高通量测序对 ChIP 所得到的序列进行测序，从而进行蛋白和 DNA 相互作用相关研究。 24. 分子生物网络： 25. 蛋白质相互作用（PPI）：是指蛋白质分子之间的相关性，并从生物化学、信号转导和遗传网络的角度研究这种相关性。 26. 高通量测序：一次性对几百万到十亿条 DNA 分子进行并行测序，又称为下一代测序技术，其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析，所以又被称为深度测序。 27. 比较蛋白质组学：即对模式生物或重要生命过程的蛋白质组学特征进行比较。 28. NCBInr： 29. GT-AG结构： 30. Entrez 检索系统：面向生物学家的数据库查询系统，其特点之一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起，通过超文本链接，用户可以从一个数据库直接转入另一个数据库。 31. 系统生物学：是从系统水平来理解生物学系统，利用一系列的原理与方法学来研究分子行为与系统特性与功能的关系，通过计算生物学来定量阐明和预测生物的功能、表型和行为。二、选择题（二、选择题（3030 个）个） 1. 下面哪种数据库源于 mRNA 信息（A）： A. dbEST、B. PDB、C. OMIM、 D. HTGS 2. 如果我们试图做蛋白质亚细胞定位分析，应使用（）。 A.NDB 数据库、B.PDB 数据库、C.GenBank 数据库、D.SWISS-PROT 数据库 3. PIR 是（）。A.核酸数据库、B.mRNA 数据库、C.启动子数据库、D.蛋白质数据库 4. 以下哪一项不属于启动子研究范围？（） A.CpG 岛预测、 B.转录起始点预测、 C.糖基化修饰、D.甲基化检测 5. HTGS 的含义是（C）。A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列 6. STS 的含义是（）。A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列 7. HGP 是（C）。A.在线人类孟德尔遗传数据、B.国家核酸数据库、C.人类基因组计划、D.水稻基因组计划 8、下列中属于一级蛋白质结构数据库的是：（）A. EMBL、 B. DDBJ、C. PDB、 D.SWISS-PROT 9． BLAST 教案所程序中，哪个方法是不存在的？（） A. BLASTP、 B. BLASTN、 C. BLASTX、D. BLASTQ 10．人类基因组的结构特点不包括：（） A. 基因进化、B. 基因数目、C.基因重复序列、D. 基因组复制 11、下列哪个选项不是微阵列实验设计的内容？（） A. 贝叶斯网络法、B. 对照组的选择、C. 重复样本的使用、D. 随机化原则 12、构建序列进化树的一般步骤不包括. （） A. 建立 DNA 文库、B. 建立数据模型、C. 建立取代模型、D. 建立进化树 13、在 Genbank 数据库中，生物学工作者向其提交数据有两种方式，其中用于提交少量数据的是基于 Web 方式的（）。 A. BankIt、B. Sequin、C. Versi