11 / 12

生物信息学基础与算法 | 自在学

生物信息学基础与算法

生物信息学是一门融合了生物学、计算机科学、数学和统计学等多个学科知识的高度交叉学科。随着20世纪末基因组测序技术，特别是高通量测序（High-throughput sequencing）技术的飞速发展，生物学研究进入了大数据时代。DNA、RNA和蛋白质等生物学分子的序列和结构信息被批量获取，生物学数据呈现出前所未有的爆炸式增长，仅仅一个基因组测序项目就可以产生数TB甚至PB级别的数据。而这些海量的原始数据如何有效地存储、管理和处理，是当代生物学研究所面临的重大挑战之一。

生物信息学的产生正是为了应对这一挑战。它不仅关注如何通过算法和软件工具对大数据进行管理和分析，还注重如何将生物学问题转化为计算模型，从而通过定量和系统的方法深入理解生命现象。例如，通过计算方法可以对基因组进行注释，预测基因和蛋白质功能，分析生物学序列之间的相似性和进化关系，以及探索复杂生命系统的调控网络。此外，生物信息学在医学、农业、环境和药物研发等领域也有着广泛的应用价值，如疾病相关基因的识别与诊断、新药靶点的发现、作物基因改良等。

因此，生物信息学不仅仅是一门将生物学与信息技术相结合的新兴学科，更是一把开启生命科学新时代钥匙的工具，通过开发和应用各种计算方法，帮助科学家们从浩瀚的生物数据中挖掘和提取有价值的信息，推动生命科学研究的不断进步和创新。

生物信息学的研究内容与工具

生物信息学的核心任务是处理和分析各类生物学数据。这些数据包括DNA序列、RNA序列、蛋白质序列、蛋白质结构以及基因表达数据等。在中国，生物信息学的发展始于20世纪90年代，随着人类基因组计划的启动，中国科学家积极参与其中，承担了人类3号染色体短臂上约3000万个碱基对的测序任务。这一参与不仅提升了中国在基因组学领域的国际地位，也推动了国内生物信息学的快速发展。

生物信息学的研究内容可以分为几个主要方向。首先是序列分析，这是生物信息学最基础也是最重要的研究内容之一。通过对DNA、RNA和蛋白质序列的分析，我们可以预测基因的功能、发现新的基因，以及研究物种之间的进化关系。其次是结构生物信息学，主要研究蛋白质和核酸的三维结构预测、结构比对以及结构与功能的关系。第三是功能基因组学，通过分析基因表达数据来研究基因的功能和调控机制。第四是系统生物学，从整体角度研究生物系统的组织、功能和动态行为。

生物信息学的发展离不开强大的计算工具和数据库。目前，国际上有许多公开的生物信息学数据库和工具供研究者免费使用，如NCBI的GenBank数据库、欧洲生物信息学研究所的EMBL数据库、以及蛋白质数据库PDB等。

在工具方面，生物信息学研究者需要掌握多种软件和编程语言。Python和R语言是生物信息学中最常用的编程语言，它们拥有丰富的生物信息学相关软件包。例如，Python的Biopython库提供了处理生物序列、解析文件格式、访问在线数据库等功能。R语言的Bioconductor项目则包含了大量用于基因组数据分析的软件包。此外，还有许多专门的生物信息学软件，如用于序列比对的BLAST、用于多序列比对的ClustalW和MUSCLE、用于系统发育分析的MEGA等。

中国在生物信息学工具和数据库建设方面也取得了显著成果。例如，中国科学院北京基因组研究所开发了BIG Data Center，整合了多种基因组学数据资源。华大基因开发了BGI Online等生物信息学分析平台，为科研人员提供便捷的数据分析服务。这些本土化的工具和数据库不仅服务于国内科研，也在国际上产生了重要影响。

序列比对算法与数据库应用

序列比对是生物信息学中最基本也是最重要的操作之一。通过比较两条或多条生物序列，我们可以推断它们之间的相似性，进而了解它们的进化关系、功能相似性以及结构特征。序列比对的核心思想是在两条序列之间找到最佳的对应关系，这种对应关系能够最大化序列之间的相似性。

序列比对可以分为两类：双序列比对和多序列比对。双序列比对又分为全局比对和局部比对。全局比对试图在整个序列长度上找到最佳匹配，适用于长度相近且整体相似的序列。最著名的全局比对算法是Needleman-Wunsch算法，由尼德尔曼（Needleman）和温奇（Wunsch）在1970年提出。该算法采用动态规划的思想，通过构建一个二维矩阵来计算最优比对。

局部比对则是寻找序列中最为相似的局部区域，适用于部分相似或者长度差别较大的序列。最经典的局部比对算法是Smith-Waterman算法，由史密斯（Smith）和沃特曼（Waterman）在1981年提出。该算法同样使用动态规划，但允许比对从任意位置开始和结束。

在序列比对中，我们需要定义一个评分系统来衡量比对的质量。通常，匹配的碱基或氨基酸会获得正分，错配会获得负分，而引入空位（gap）也会扣分。

以下是一个简化的序列比对评分示例。假设我们比对两条短序列“ACGT”和“AGCT”，使用简单的评分规则：匹配得1分，错配扣1分，引入空位扣2分。

位置	序列1	序列2	比对类型	得分
1	A	A	匹配	+1
2	C	G	错配	-1
3	G	C	错配	-1
4	T	T	匹配	+1
总分	-	-	-	0

虽然动态规划算法能够找到最优比对，但其时间复杂度较高，对于大规模数据库搜索来说过于缓慢。为了解决这一问题，研究者开发了启发式算法。BLAST（基本局部比对搜索工具，中文全称“基本局部相似性搜索工具”）是最著名的序列比对工具，由史蒂芬·F·阿尔奇尔（Stephen F. Altschul）等人于1990年开发。BLAST通过寻找短的高度相似片段（通常称为“种子”），然后对这些种子进行扩展，从而快速找到局部比对。虽然BLAST不保证找到最优解，但其速度要快得多，能够在短时间内完成整个数据库的搜索。

下表展示了不同序列比对算法在不同序列长度下的计算时间（秒）比较：

序列长度（碱基对）	Smith-Waterman算法	BLAST算法	FASTA算法
100	0.5	0.05	0.08
500	5	0.08	0.15
1000	18	0.12	0.25
2000	70	0.18	0.45
5000	420	0.35	1.2
10000	1680	0.65	2.8

可以看出，BLAST算法的效率明显高于传统的动态规划算法。

在实际应用中，序列比对常常需要访问各种生物序列数据库。GenBank（美国国家生物技术信息中心维护的核酸序列数据库）包含了来自超过10万个物种的数据。UniProt（通用蛋白质资源库）是蛋白质序列和功能信息的综合数据库，整合了Swiss-Prot和TrEMBL两个数据库。蛋白质数据库PDB（蛋白质结构数据库）则收录了利用X射线晶体学、核磁共振等方法解析的蛋白质和核酸的三维结构数据。

中国也建立了多个重要的生物信息学数据库。例如，中国科学院建立的中国国家基因库（CNGB），是继美国NCBI、欧洲EBI和日本DDBJ之后的第四个国家级基因库。该基因库不仅存储和管理大量的基因组数据，还提供数据分析和共享服务。此外，还有专门针对特定物种或研究领域的数据库，如水稻基因组数据库、中国人群基因组变异数据库等。

基因预测与功能注释方法

基因预测是生物信息学中的一项重要任务，其目标是在DNA序列中识别出编码蛋白质的基因。对于原核生物来说，基因预测相对简单，因为原核生物的基因通常没有内含子，基因之间的非编码区也较短。然而，真核生物的基因结构要复杂得多，包含外显子、内含子、启动子、终止子等多种元件，这使得真核生物的基因预测成为一个具有挑战性的问题。

基因预测方法可以分为三类：从头预测（ab initio）、基于同源性的预测和基于转录证据的预测。从头预测方法不依赖于其他物种的序列信息，而是基于统计模型来识别基因特征。这类方法通常使用隐马尔可夫模型（HMM）或神经网络来学习基因的序列特征，如起始密码子、终止密码子、剪接位点等。常用的从头预测软件包括GeneMark、Augustus和GENSCAN等。

基于同源性的预测方法则利用已知基因的序列信息。通过将待预测序列与已知基因进行比对，可以推断出新序列中可能的基因位置。这种方法的准确性较高，但依赖于参考序列的质量和相似度。基于转录证据的预测方法使用RNA测序（RNA-seq）数据或EST（表达序列标签）数据来直接确定基因的转录区域。由于这些数据反映了基因的实际表达情况，因此准确性很高。

在实际应用中，研究者通常会结合多种方法来提高基因预测的准确性。例如，先使用从头预测方法得到初步结果，然后用同源性信息和转录证据进行验证和修正。

以下表格比较了三种主要基因预测方法的特点：

预测方法	优点	缺点	适用场景
从头预测	不依赖参考序列，可用于新物种	准确性相对较低，特别是对复杂基因	缺乏近缘物种参考序列时
同源性预测	准确性较高，可预测功能	依赖参考序列质量，对新基因无效	有近缘物种高质量参考序列时
转录证据预测	准确性最高，反映实际表达	需要转录组数据，成本较高	有转录组测序数据时

基因预测完成后，下一步是进行功能注释，即推断所预测基因的生物学功能。功能注释通常通过序列相似性搜索来实现。如果一个新预测的基因与已知功能的基因有高度相似的序列，则可以推测它们具有相似的功能。常见的功能注释工具包括BLAST、InterProScan和HMMER等。

基因本体（Gene Ontology，简称GO）是功能注释中广泛使用的标准化术语体系。GO将基因功能分为三个主要类别：分子功能、生物过程和细胞组分。通过GO注释，我们可以系统地描述基因的功能特征。例如，一个基因可能被注释为“具有ATP结合活性”（分子功能）、“参与细胞周期调控”（生物过程）、“定位于细胞核”（细胞组分）。

KEGG（京都基因与基因组百科全书）是另一个重要的功能注释资源。KEGG数据库收录了大量的代谢通路、信号转导通路以及其他生物学通路的信息。通过将基因映射到KEGG通路上，可以了解基因在整个生物网络中的作用。中国科学家也在功能基因组学研究中作出了重要贡献，比如对水稻、小麦等重要农作物开展了大规模的功能基因组研究。

下图展示了不同基因预测方法的准确性比较。准确性通过敏感性（Sensitivity，预测到的真实基因比例）和特异性（Specificity，预测结果中真实基因的比例）来衡量。

蛋白质结构预测与分子对接

蛋白质的功能在很大程度上取决于其三维结构。虽然我们可以通过X射线晶体学、核磁共振等实验方法来解析蛋白质结构，但这些方法耗时且成本高昂。相比之下，通过计算方法预测蛋白质结构则更加快速和经济。蛋白质结构预测是生物信息学中最具挑战性的问题之一，被称为“蛋白质折叠问题”。

蛋白质结构预测方法可以分为三类：同源建模、线程法和从头预测。同源建模基于这样一个观察：相似的序列通常具有相似的结构。如果我们知道一个蛋白质的序列与已知结构的蛋白质高度相似（通常序列相似度大于30%），就可以使用已知结构作为模板来构建目标蛋白质的结构。同源建模是目前最可靠的结构预测方法，广泛应用于药物设计和蛋白质工程等领域。

线程法（Threading）也称为折叠识别，用于序列相似性较低但可能具有相似折叠的情况。该方法将目标序列“线程”到已知结构的蛋白质骨架上，通过评分函数判断哪个结构最适合。从头预测则完全基于物理化学原理，不依赖已知结构。这类方法尝试通过能量最小化原理来预测蛋白质的折叠构象，但由于构象空间巨大，从头预测仍然非常困难。

2020年，DeepMind公司开发的AlphaFold2在蛋白质结构预测领域取得了突破性进展。该系统使用深度学习技术，在CASP14竞赛中达到了接近实验方法的准确度。2021年，AlphaFold2的代码和预测的人类蛋白质组结构被公开发布，极大地推动了结构生物学研究。

中国科学家在蛋白质结构预测和结构生物学领域也取得了重要成果。清华大学、中国科学院等机构的研究团队在膜蛋白结构解析、大分子复合物结构研究等方面做出了国际领先的工作。例如，颜宁教授团队解析了葡萄糖转运蛋白GLUT1的结构，施一公教授团队解析了剪接体的高分辨率结构，这些工作都对理解生命过程的分子机制具有重要意义。

蛋白质结构预测的另一个重要应用是分子对接。分子对接是一种计算方法，用于预测小分子配体（如药物分子）与蛋白质受体之间的结合模式。在药物设计中，科学家需要找到能够与疾病相关蛋白质特异性结合的化合物。分子对接可以在虚拟环境中快速筛选大量候选化合物，预测它们与靶蛋白的结合能力，从而大大加快药物发现的过程。

分子对接的基本步骤包括：首先确定受体蛋白的活性位点，即配体可能结合的区域；然后在该区域内搜索配体的不同构象和取向；最后使用评分函数评估每个对接姿态的结合亲和力。常用的分子对接软件包括AutoDock、DOCK和Glide等。

下图展示了蛋白质结构预测准确度随序列相似性的变化趋势。可以看出，当序列相似度较高时，同源建模能够获得很高的准确度；而当序列相似度较低时，预测难度显著增加。

机器学习在生物信息学中的应用

机器学习是人工智能的一个重要分支，它通过从数据中学习模式来进行预测和决策。近年来，随着计算能力的提升和算法的发展，机器学习在生物信息学中得到了广泛应用，从基因预测、蛋白质结构预测到疾病诊断，机器学习方法都展现出了强大的能力。

在生物信息学中常用的机器学习方法包括监督学习、非监督学习和深度学习。监督学习使用带标签的训练数据来学习输入和输出之间的映射关系。例如，在基因预测中，我们可以使用已知的基因序列作为正样本，非基因序列作为负样本，训练一个分类器来识别新序列中的基因。常用的监督学习算法包括支持向量机（SVM）、随机森林和神经网络等。

非监督学习则处理没有标签的数据，主要用于发现数据中的隐藏模式。聚类分析是最常见的非监督学习任务，在基因表达数据分析中被广泛使用。通过对基因表达谱进行聚类，我们可以识别出具有相似表达模式的基因群，这些基因可能参与相同的生物学过程或受到相同的调控机制控制。

在应用机器学习方法时，需要注意过拟合问题。过拟合是指模型在训练数据上表现很好，但在新数据上表现较差。为避免过拟合，通常需要使用交叉验证、正则化等技术，并确保有足够的训练数据。

深度学习是机器学习的一个子领域，使用多层神经网络来学习数据的层次化表示。深度学习在图像识别、自然语言处理等领域取得了巨大成功，近年来也在生物信息学中展现出强大的潜力。卷积神经网络（CNN）被用于分析DNA序列中的调控元件、预测转录因子结合位点等。循环神经网络（RNN）和长短期记忆网络（LSTM）则适合处理序列数据，可用于预测蛋白质二级结构、剪接位点等。

前面提到的AlphaFold2就是深度学习在生物信息学中的典型应用。该系统使用了注意力机制和残差网络等先进的深度学习技术，通过学习大量已知蛋白质结构的特征，成功预测了新蛋白质的三维结构。这一突破不仅展示了深度学习的强大能力，也为生物学研究开辟了新的可能性。

中国在人工智能和生物信息学交叉领域也投入了大量资源。许多研究机构和公司正在开发基于机器学习的生物信息学工具。例如，华为云推出了医疗智能体，提供基因组分析、药物研发等服务。腾讯、阿里巴巴等科技公司也在健康医疗领域应用人工智能技术，开发疾病预测、辅助诊断等应用。

下表总结了不同机器学习方法在生物信息学中的主要应用：

机器学习方法	典型应用	优势	挑战
支持向量机	蛋白质分类、基因表达分析	泛化能力强，适合高维数据	对大规模数据处理较慢
随机森林	疾病预测、基因重要性评估	不易过拟合，可解释性较好	模型可能较大，预测速度较慢
神经网络	序列分析、结构预测	表达能力强，可处理复杂模式	需要大量数据，训练时间长
深度学习	图像分析、端到端预测	自动特征提取，准确度高	计算资源需求大，可解释性差

机器学习在生物信息学中的应用还面临一些挑战。首先是数据质量问题。生物学数据往往存在噪声、缺失值和批次效应等问题，这些都会影响模型的性能。其次是可解释性问题。深度学习模型虽然准确度高，但往往被视为“黑箱”，难以理解其决策过程。这在医疗等需要可解释性的领域可能是一个问题。最后是计算资源问题。训练大型深度学习模型需要大量的计算资源，这对许多研究机构来说可能是一个限制。

尽管存在这些挑战，机器学习在生物信息学中的应用前景仍然非常广阔。随着算法的不断改进、计算能力的提升以及更多高质量数据的积累，我们可以期待机器学习在未来为生物学研究带来更多突破性的进展。

下图展示了不同机器学习模型在基因功能预测任务中的性能比较。性能通过准确率（Accuracy）和F1分数来衡量。

本节练习

1. 在序列比对中，Smith-Waterman算法与Needleman-Wunsch算法的主要区别是什么？

A. Smith-Waterman算法用于多序列比对，Needleman-Wunsch算法用于双序列比对

B. Smith-Waterman算法进行局部比对，Needleman-Wunsch算法进行全局比对

C. Smith-Waterman算法速度更快，但准确性较低

D. Smith-Waterman算法只能用于蛋白质序列，Needleman-Wunsch算法只能用于核酸序列

答案：B

解析：Smith-Waterman算法是经典的局部比对算法，它寻找序列中最相似的局部区域，适用于部分相似的序列。Needleman-Wunsch算法是全局比对算法，试图在整个序列长度上找到最佳匹配，适用于长度相近且整体相似的序列。两者都采用动态规划的方法，但在矩阵初始化和回溯方式上有所不同。这两种算法都可以用于核酸和蛋白质序列的比对。

2. BLAST算法相比Smith-Waterman算法的主要优势是什么？

A. BLAST算法能找到最优解

B. BLAST算法速度快，适合大规模数据库搜索

C. BLAST算法准确性更高

D. BLAST算法可以比对蛋白质三维结构

答案：B

解析：BLAST是一种启发式算法，通过寻找短的高度相似片段（种子）并扩展来快速找到局部比对。虽然BLAST不保证找到最优解，但其速度远快于Smith-Waterman算法，能够在短时间内搜索整个数据库。这使得BLAST成为序列相似性搜索的标准工具。BLAST主要用于序列比对，而非结构比对。

3. 在基因预测中，基于转录证据的预测方法使用的数据是：

A. 其他物种的基因序列

B. 蛋白质结构数据

C. RNA测序或EST数据

D. 代谢通路信息

答案：C

解析：基于转录证据的预测方法使用RNA测序（RNA-seq）数据或表达序列标签（EST）数据来直接确定基因的转录区域。由于这些数据反映了基因的实际表达情况，因此准确性很高。RNA-seq技术可以捕获细胞中所有转录的RNA分子，通过将这些序列比对到基因组上，可以准确识别基因的外显子-内含子边界。

4. AlphaFold2在蛋白质结构预测中使用的核心技术是：

A. 分子动力学模拟

B. X射线晶体学

C. 深度学习

D. 同源建模

答案：C

解析：AlphaFold2是由DeepMind公司开发的基于深度学习的蛋白质结构预测系统。它使用了注意力机制、残差网络等先进的深度学习技术，通过学习大量已知蛋白质结构的特征来预测新蛋白质的三维结构。在CASP14竞赛中，AlphaFold2达到了接近实验方法的准确度，实现了蛋白质结构预测领域的重大突破。

5. 在生物信息学中，Gene Ontology（GO）主要用于：

A. 序列比对

B. 基因功能注释

C. 蛋白质结构预测

D. 系统发育分析

答案：B

解析：Gene Ontology（基因本体）是一个标准化的词汇系统，用于系统地描述基因的功能特征。GO将基因功能分为三个主要类别：分子功能（基因产物的生化活性）、生物过程（基因产物参与的生物学途径）和细胞组分（基因产物在细胞中的定位）。通过GO注释，研究者可以统一、规范地描述不同物种中基因的功能，便于跨物种的功能比较和分析。

6. 请简要说明为什么序列相似性可以用来推断生物功能和进化关系。这一原理的局限性是什么？

答案要点：

序列相似性可以用来推断生物功能和进化关系的基础是生物进化的保守性原理。具有相似序列的基因或蛋白质通常来自共同的祖先，在进化过程中保留了相似的序列特征。由于蛋白质的功能与其序列密切相关，序列保守往往意味着功能保守。因此，如果两个基因的序列高度相似，它们很可能具有相似的功能。

这一原理的主要局限性包括：首先，序列相似但功能不同的情况确实存在，特别是在蛋白质家族中，某些成员可能在进化过程中发生了功能分化。其次，短序列的相似可能是偶然的，不一定反映真实的同源关系。第三，对于快速进化的基因或蛋白质，即使功能相似，序列相似性也可能很低。因此，在使用序列相似性推断功能时，需要结合其他证据，如结构信息、表达模式等。

7. 请讨论机器学习在生物信息学中的应用前景和面临的主要挑战。

答案要点：

机器学习在生物信息学中具有广阔的应用前景。随着生物学数据的爆炸式增长，机器学习提供了强大的工具来从海量数据中提取有价值的信息。在基因预测、蛋白质结构预测、疾病诊断、药物设计等多个领域，机器学习方法已经展现出优异的性能。特别是深度学习的发展，如AlphaFold2在蛋白质结构预测中的突破，为生物学研究带来了革命性的变化。

然而，机器学习在生物信息学中的应用也面临诸多挑战。数据质量是首要问题，生物学数据往往存在噪声、缺失值和批次效应，需要仔细的预处理。样本量不足也是常见问题，某些疾病的患者数据有限，难以训练有效的模型。模型的可解释性是另一个重要挑战，特别是在医疗应用中，医生和患者需要理解模型的决策依据。此外，计算资源的需求、数据隐私保护等也是需要考虑的因素。未来，随着算法的改进和数据的积累，这些挑战有望逐步得到解决。