序列比对笔记

本文聚焦于序列比对的相关知识，部分内容来源于我的课堂笔记，希望能对你有所帮助 😊

1. 序列比对的基本概念

1.1 什么是序列比对？
序列比对是通过排列两条或多条生物序列（DNA、RNA 或蛋白质），找到它们之间相似区域的过程。

目的：

1.2 序列比对的分类

全局比对（Global Alignment）：
- 比对两条序列的全部内容。
- 适合长度相近的序列。
- 例子：Needleman-Wunsch 算法。
局部比对（Local Alignment）：
- 比对序列中最相似的部分。
- 适合长度差异较大的序列或部分相似的序列。
- 例子：Smith-Waterman 算法。
多序列比对（Multiple Sequence Alignment, MSA）：
- 同时比对三条或更多序列。
- 常用于蛋白质家族分析和进化树构建。

2.1 序列相似性的衡量

2.2 打分系统（Scoring System）
序列比对的核心是设计合理的打分系统来评估比对质量。

打分示例（DNA 序列）：

A-TCG
AATCG
匹配得分：3（A, T, C 匹配）
错配得分：-1（A vs T）
空位罚分：-2（插入 T）
总分 = 3 - 1 - 2 = 0

2.3 动态规划
动态规划（Dynamic Programming, DP）是实现序列比对的核心算法。

2.4 常用算法

3.1 常用工具

BLAST：
- 全称：Basic Local Alignment Search Tool。
- 用途：在数据库中快速查找与目标序列相似的序列。
- 输入：FASTA 格式的查询序列。
- 输出：比对得分、E 值（显著性概率）。
Clustal Omega：
- 用于多序列比对，生成序列对齐结果和进化树。
MUSCLE：
- 高效的多序列比对工具。
MAFFT：
- 精确而快速的多序列比对工具。

基因功能预测
比对未知基因序列与数据库中已知基因，推测其功能。

进化关系研究
比对多个物种的基因序列，构建进化树，研究物种间的进化距离。

突变检测
比对基因组序列，识别 SNP（单核苷酸多态性）和 indel（插入/缺失）。

蛋白质结构预测
比对蛋白质序列，推测其结构和功能。

《生物信息学》樊笼江主编