1、什么是生物信息学?
生物信息学是生物学和信息技术的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理.生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起。
2、5个常用网站
NCBI (The National Center for Biotechnology Information)
EBI (The European Bioinformatics Institute)
The Canadian Bioinformatics Resource
SwissProt/ExPASy (Swiss Bioinformatics Resource)
PDB (The Protein Databank)
3、DNA 测序原理
DNA测序是采用全自动的链终止反应完成的,这一技术通过加入限量的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA片段。共有4种反应,每种代表DNA 4个碱基中的一个,每个碱基分别带有不同的荧光标记。DNA片段通过聚丙烯酰胺凝胶电泳(PAGE)分离,当每个片段移动到凝胶的末端时可以通过扫描仪读取序列。
4、DNA序列来源
A、基因组DNA直接来自基因组,包括基因和基因外核酸序列,包含内含子
B、cDNA由mRNA反转录而来,只对应于基因组中能表达的部分,它不包含内含子
C、重组DNA来自实验室,包含克隆载体等人工DNA分子。
5、基因组测序可以分为两种方式:
霰弹法测序(shot-gun sequencing)包括随机DNA片段的生成,通过大量片段测序来覆盖整个基因组;与之相反,克隆重叠群测序(clone contig sequencing)包括亚克隆系统的产生及其测序。
6、RNA 测序
大部分RNA序列可以从相应的DNA序列推断得到,但是需要用特殊的方法来识别被改变的核苷,这些方法包括:生化实验、核磁共振谱( NMR spectroscopy)、质谱 。
7、蛋白质测序
目前,大部分蛋白质测序是通过质谱(MS)技术进行的,应用这一技术可以通过测量真空中离子的分子质量/电荷比来计算xx的分子质量。软离子化方法可以对蛋白质这样的大分子进行质谱分析。通过比较经胰蛋白酶裂解而获得的多肽片段的分子质量与从数据库中蛋白质的虚拟消化(virtual digest)预测而来的分子质量的异同推断序列。通过在碰撞室(collision cell)中产生的蛋白质片段嵌套集合可以进行重新测序,并可通过单个氨基酸残基计算不同长度片段间分子质量的差异。
8、蛋白质结构的确定
X-ray 衍射晶体学、核磁共振谱(NMR spectroscopy)、其他方法
X衍射晶体学是一种通过xx定向的蛋白质晶体的X射线衍射模式来确定蛋白质结构的方法。这种方法中,X射线因晶体中原子的电子密度和空间方向的不同而发生散射,可用傅立叶变换的数学方法从衍射数据中重构电子密度图,以建立结构模型。
核磁共振谱;NMR是某些原子的一种属性,即在外加磁场范围内原子通过吸收电磁辐射可以在不同的磁状态间转换。吸收光谱的性质受原子类型及其周围化学性质影响,所以NMR spectroscopy可以区分不同的化学功能团。核磁共振谱也因空间上原子的接近而改变。NMR谱的分析可以重建原子的三维构型,产生一系列结构模型。这一技术只适合小的可溶性蛋白的分析。
对于大的不容易结晶的蛋白质,需要用其他的分析方法来推测结构,这包括X射线纤维衍射、电子显微镜和CD光谱
9、常用核酸和蛋白序列格式:
NBRF/PIR: .pir or .seq、 FASTA: .fasta、 GDE: gde
10、已注释的序列数据库
初级序列数据库:GenBank、NSD、DDBJ
辅助序列数据库:特别类型的序列数据. eg. ESTs, GSSs and unfinished genomic seq. data
SWISS-PROT: 收集了确认的蛋白质序列及与结构、功能和所属蛋白质家族有关的注释信息
TrEMBL: 翻译了初级核酸数据库中的编码序列。TrEMBL中各条目的注释不如SWISS-PROT中的条目那样详细。
11、如何上传序列
Sequence ——Tools:WebIn、BankIt、Sequin——NCBI、EMBL、DDBJ
12.序列搜索的方法
通过访问号来查询
13. 结构数据文件
结构数据用PDB格式的平面文件(flat files)来维护,这类文件包含: 正交的原子坐标值(X, Y, Z轴); 注释、说明和实验细节。
NOTE: 1、 ATOM行以字符计数,而不是以单词计数;2、NMR文件没有分辨率REMARK行。
14、三大数据检索工具
Entrez:可以用来搜索 NCBI 中集成的所有数据库包括 GenBank, OMIM 以及文献数据库 MEDLINE;Entrez àAll databases模式搜索,以文本是形式进行文本搜索: 以单词或逻辑短语为关键词
DBGET:日本京都大学和人类基因组中心联合开发的集成数据检索系统。它整合了 20 数据库并与 KEGG相关联;三种搜索模式:bget, bfind, blink
SRS:由欧洲生物信息研究所开发,其集成有80多个分子生物学数据库。SRS可下载和安装在本地计算机上使用。SRS的使用包括选择一个或多个分组,在每一个选定的组中选择一个或多个现有的数据库。查询方式有两种: 标准模式、 扩展模式。SRS 可以通过脚本语言 ICARUS编程来查询使用者自己的数据库。
15、为什么可以序列相似性搜索 (据说是简单)
通过序列相似性来搜索数据库,我们可以找到与所查询序列相似的序列。可以用这些找到的
序列信息来预测查询序列的结构或功能。依据相似性进行预测是生物信息学中强大而且广泛
使用的方法,其根本依据是分子进化。
16、序列比对:是使相似度量化的{dy}步,用来区分偶然性的相似和真实的生物学关系
17、动态规划算法:可以计算两条序列之间的{zj0}联配。当序列不是全长关联时局部比对是有效的
18、比对打分和空位罚分:Score: S = sum (si) + sum (xk)
用简单的比对打分来测量相同匹配残基的比例或数目。得从比对打分中扣去空位罚分,以保证比对算法能得出有生物学意义的结果而没有太多的空位
固定罚分: 与空位长度无关;
比例罚分: 与空位长度成比例;
放射罚分: 包括 gap opening 和 gap extension 两部分罚分
19、相似性和同源性的区别
任何序列之间均存在相似,但是仅当序列是从一个共同的祖先进化而来时,它们才是同源的。
20、直系同源(orthologs): 不同物种的两个同源基因有相同的功能
旁系同源(paralogs): 当同一或不同物种的两个基因有不同的功能
不同功能的同源基因的例子:溶解酶( lysozyme,一种酶)和α-乳白蛋白( α-lactalbumin
21、替换打分矩阵 (重点)
这些矩阵给进化中所有可能的氨基酸替换打分,分值越高,意味着替换的可能性越大。进行序列比对的动态规划算法可以采用从这些矩阵得到的分值来进行运算。 E.g. BLOSUM62 and PAM250. 替换打分矩阵可以查找蛋白质序列间较远的亲缘关系。
PAM250: 表示矩阵的进化距离是每100个残基有250个氨基酸变化。PAMn: n值越小,表示进化距离越短。
BLOSUM62: 用于构造矩阵的blocks的最小序列一致性百分数至少为 62%。
更小数字的BLOSUM矩阵表示更长的进化距离(BLOSUM50所代表的进化距离要比BLOSUM62要长)。 Note: BLOSUM 矩阵通常比 PAM 好用。
22、FASTA 和 BLAST 的区别 (据说是简单)
BLAST: W (word length); T (threshold score); 寻找长度为W比对得分 > T 的words
扩展这些 words 直到比对得分跌落到一定值, 产生大量 HSPs (high-scoring segment pairs)
通过动态规划比对好全部序列高打分区域,得出最终比对结果及其分值。