本文是我在阅读 Definition of the effector landscape across 13 phytoplasma proteomes with LEAPH and EffectorCombhttps://doi.org/10.1093/nargab/lqae087 )时所做的笔记。由于当时采用 PPT 的记录形式,因此本文也延续了“一张图一段话”的方式整理内容,希望对你有所帮助 😊

注意

本文图片较多,且采用的图床网站是GitHub,因此可能图片加载得慢或者无法加载(如果使用国内网络的话),请见谅

如果实在需要图片对应观看,可以在博客的about界面找到我的联系方式(https://hermit200.github.io/about.html)

Introduction

image

病原体试图感染植物 时,植物会通过调节自身的 免疫反应信号传导新陈代谢 等一系列生化过程,试图 检测并阻止病原体的入侵与繁殖。然而,病原体也会分泌一种 特定的致病因子 —— 效应蛋白(effector protein)

效应蛋白的作用
通过 干扰植物自身的基因表达,帮助病原体 逃避植物防御
最终促进 病原体存活相关疾病的发生

图上展示了这一模式的 简易示意图

image

基因组研究的推动与预测工具的局限
随着 植物病原体基因组序列的日益丰富,对其 致病机理的研究 取得了长足进展,也推动了许多 针对效应蛋白的预测工具 的开发。然而,这些工具仍然存在以下问题:
不够全面:无法覆盖所有病原体。
特异性不足:缺乏对某些特殊病原体(如植原体)的研究和支持。

植原体的特殊性
Candidatus Phytoplasma 属 为例(图示为其基因序列):

  1. 病原体特点
    植原体(Phytoplasma) 是一种与 农作物、观赏植物和树木病害 密切相关的细菌。
    其传播依赖 昆虫通过韧皮部取食 进行感染。
    体外培养困难:限制了实验研究。
  2. 基因序列特点
    高度氨基酸序列变异性:使基于序列相似性的预测工具失效。
    分泌信号肽的特殊性
    信号肽的疏水区更长,趋近于 跨膜区域
    传统依赖信号肽特征的预测工具效果较差。

普通工具的局限
现有效应蛋白预测工具的挑战:
依赖序列相似性:无法有效处理高度变异的蛋白序列。
依赖传统信号肽预测:对植原体效应蛋白的预测能力显著不足。

LEAPH 的创新与应用
为了解决以上问题,文章开发了一种 针对植原体分泌蛋白的预测方法 —— LEAPH
核心特点:由 4个监督学习模型 组成。
目标:优化效应蛋白的研究和预测,特别是对植原体这类复杂病原体。

LEAPH 的开发为植原体效应蛋白的研究开辟了新的路径,同时为解决特殊病原体预测工具的局限提供了宝贵经验。

RESULTS:模型设计和数据选择

image

LEAPH 的工作流程详解

LEAPH 是一套用于预测效应蛋白的计算方法,由 四个主要步骤 组成,每一步均以高度系统化的方式分析蛋白质序列并预测其致病潜力。

一、特征提取与特征表生成
目的:从输入的蛋白序列中提取描述其属性的多种特征,生成特征表(Feature Table)。
具体操作:

  1. 信号肽预测:使用 SignalP 4.1 判断序列中是否存在信号肽。
  2. 跨膜(TM)结构域预测:使用 TMHMM 2.0 预测跨膜结构域的数量、 TM 螺旋的氨基酸数量及分布特征(如前 60 位氨基酸的数量)。
  3. 无序区(IDRs)预测:使用 MobiDB-Lite 1.0 预测潜在的 内源无序区 的存在及其长度。
  4. 功能基序(Motifs)提取:使用 Prosite 1.86 预测与效应蛋白相关的 22 个功能基序
  5. 物理化学特性分析:使用 MOnSTER 对上述功能基序进行进一步聚类,并提取物理化学特征。

输出:最终得到一个包含 30 项特征属性 的特征表,用于后续模型训练。

二、模型训练
目的:使用训练数据集优化四个分类模型,使其能够区分致病性蛋白与非致病性蛋白。
具体操作:

  1. 分类模型
    两个基于树的模型:
    1. 随机森林(Random Forest)
    2. XGBoost(Extreme Gradient Boosting)
      两个朴素贝叶斯分类器:
    3. 高斯朴素贝叶斯(Gaussian Naive Bayes)
    4. 多项式朴素贝叶斯(Multinomial Naive Bayes)
  2. 数据划分与验证
    使用 5 折交叉验证:数据被分成五部分,每次轮流使用其中一部分作为测试集,其余四部分作为训练集。
    交叉验证确保模型的泛化能力。

输出:训练好的 最佳模型,用于后续预测。

三、数据评估与致病概率计算
目的:评估数据集中每个蛋白质的致病概率。
具体操作:

  1. 致病概率评估
    使用训练好的四个模型,对每个蛋白质进行预测。
    每个模型独立输出该蛋白质属于致病因子的概率。
  2. 综合评估
    每个蛋白质获得 四个独立的致病概率(对应四个模型)。
    输出:每个蛋白质的致病概率分布。

四、打分与最终结果输出
目的:根据模型输出的一致性,为每个蛋白质打分并输出最终结果。

具体操作:

  1. 一致性打分规则
    根据四个模型的致病概率输出为蛋白质打分:
    如果至少一个模型预测概率 >90%,则蛋白质被认为可能具有致病性(Putatively Pathogenic)。
    打分规则:
    若仅一个模型预测概率 >90%,得分为 1。
    若两个模型预测概率 >90%,得分为 2。
    若三个或四个模型预测概率 >90%,得分分别为 3 和 4。
  2. 最终输出
    结果表包含以下信息:
    每个蛋白质的氨基酸序列。
    各模型对该蛋白质的预测概率。
    蛋白质的最终得分。
    平均预测概率。

工作流程简图

1. 特征提取 → 生成特征表(30 项特征)。
2. 模型训练 → 随机森林、XGBoost、高斯朴素贝叶斯、多项式朴素贝叶斯。
3. 数据评估 → 每个蛋白质的致病概率。
4. 综合打分 → 根据四个模型的一致性得出最终分数。
5. 输出结果 → 结果表包含序列、预测概率、得分等信息。

image

数据集与特征选择分析

为了构建可靠的分类模型,文章在 训练数据集特征选择 上进行了精心设计与验证。

1. 训练集构建

阳性与阴性数据的构建

  1. 阳性数据:选取 184 个 Ca. Phytoplasma 属的蛋白,这些蛋白被确认为效应蛋白。
  2. 阴性数据: 包含 295 个明确功能与已知效应蛋白无关 的蛋白。这些蛋白用于模拟非致病蛋白的分布。

数据来源与分布
如右图饼图所示:

2. 特征选择

特征分布验证
30 个特征均从蛋白序列中提取,涵盖信号肽、跨膜结构域、无序区、功能基序及物理化学特性等。

如左图所示:对每个特征在 正数据集(效应蛋白)负数据集(非效应蛋白) 中的分布进行了分析。
使用 Mann–Whitney 检验 验证分布显著性:P 值 < 0.05 的特征显示出良好的判别能力。确保用于模型训练的特征具有统计上的区分能力。

3. 优点

  1. 数据集
    • 阳性和阴性数据比例合理,样本量适中,避免了严重的类别不平衡问题。
    • 数据来源集中于目标病原体(Ca. P 属),提升了模型的针对性。
  2. 特征选择
    • 通过分布验证筛选显著特征,确保了输入特征的判别性和有效性。

RESULT:模型实际表现

image

模型测试与性能评估

文章通过 5 折交叉验证 在测试数据上对四个分类模型的性能进行了全面评估。结果表明,四种模型在多个指标上均表现出较高的预测能力,并通过模型间的互补性提升了整体预测效果。

1. 模型性能指标

四个度量指标的表现(左图)
评估指标
精确率(Precision)召回率(Recall)准确率(Accuracy)F1 分数(F1-Score):精确率和召回率的调和平均值。
结果
四个模型的评分范围为 95%-99%,表现出 优秀的性能
各模型在多个指标上接近一致,说明了分类器对效应蛋白的高识别能力。

2. 模型间预测的一致性与互补性

四个模型的韦恩图(右图)
结果观察
96% 的效应蛋白预测结果是四个模型的共有预测,说明四个模型的核心预测能力较为一致。
两个朴素贝叶斯分类器(尤其是多项式模型)能够识别 基于树的模型未识别的假定效应蛋白
这体现了模型间的 互补性,即不同算法捕捉到的数据模式和特征可能不同。

意义
LEAPH 通过组合多种学习模型,实现了 更全面的预测
多模型策略有效提升了效应蛋白识别的覆盖范围,减少了漏检。

结论
模型性能:四种分类器在 精确率、召回率、准确率和 F1 分数 上表现优异,预测效应蛋白的能力非常可靠。
模型互补性:不同分类器的组合提升了预测的全面性,特别是多项式朴素贝叶斯弥补了基于树模型的不足。
LEAPH 的优势:通过整合多种机器学习模型,LEAPH 不仅能够保持高性能,还能提高预测的覆盖范围,为效应蛋白研究提供了全面而精准的工具支持。

image

LEAPH 的多模型预测能力与特征重要性分析

为进一步验证 LEAPH 的多元模型设计如何提升预测全面性,文章采用了 SHAP 算法(SHapley Additive exPlanations) 分析各模型的特征重要性,并对贡献前 10 的特征进行展示。

1. SHAP 算法的作用
目的:量化每个特征对模型预测的贡献,解析模型的决策依据。
优点:能够提供特征对模型输出的具体影响。为多模型结果的异同提供直观解释。

2. 不同模型的特征重要性
共同的重要特征
图中展示了四个模型的 前 10 特征,从中可以看出:
共同的重要特性前 60 个氨基酸是多个模型预测的核心特征,反映了效应蛋白序列的 N 端特性对预测的重要性。

蛋白质修饰位点相关的功能基序
- 肉豆蔻酰化
- 糖基化
- 磷酸化
这些基序的存在在所有模型中均为显著贡献特征,说明它们可能是效应蛋白的关键生物学特征。

模型间的差异
多项式朴素贝叶斯

3. 结论与意义
模型多元性的价值

功能基序的重要性:包括肉豆蔻酰化、糖基化和磷酸化位点的功能基序始终在各模型的核心贡献中,提示这些修饰可能是效应蛋白的共同特征。

LEAPH 的优势:多模型组合不仅提高了预测准确性,也提供了多维度的特征解释,为效应蛋白的生物学机制研究提供了更多启发。

image

LEAPH 与其他效应蛋白预测工具的对比分析

文章通过与目前最先进的效应蛋白预测工具进行性能对比,全面评估了 LEAPH 在预测植原体效应蛋白方面的优越性。

1. 对比
对比了包括以下几种效应蛋白预测方法:

  1. EffectorP 3.0
  2. EffectorO
  3. Deepredeff
  4. 传统方法
    • SignalP 4.1:用于预测经典分泌蛋白。
    • TMHMM 2.0:用于预测跨膜蛋白特性。

2. 性能对比结果

EffectorP 3.0、EffectorO 和 Deepredeff

传统方法:SignalP 4.1 和 TMHMM 2.0

LEAPH 的表现

优势原因

3. 结论
LEAPH 在 预测植原体效应蛋白 的任务中表现优于其他方法,尤其在捕获非经典分泌蛋白方面表现突出。
文章认为,这种综合性能的提升使 LEAPH 成为目前预测植原体效应蛋白的最佳工具。

RESULTS:用LEAPH进行预测、分析

image

LEAPH 的预测能力验证与比较分析

为验证 LEAPH 在植原体效应蛋白预测中的表现,文章从 Ca. Phytoplasma 属 选取了 13 组植原体蛋白质组,确保这些蛋白质组在 蛋白数量、16S 类群、症状类型和寄主数量 等方面具有显著的多样性。

1. LEAPH 的效应蛋白预测比例
结果展示(左图):图中橙色部分表示 LEAPH 预测的效应蛋白占总蛋白比例,范围在 40%-61%
意义: LEAPH 能够预测出相当比例的效应蛋白,且这些预测结果覆盖了不同背景和特征的植原体蛋白质组。

2. 与其他方法的对比

对比方法

  1. SignalP4.1 + TMHMM2.0: 用于识别 经典分泌蛋白,即具有信号肽和跨膜结构域的蛋白。
  2. SecretomeP2.0:专注于预测 非经典分泌蛋白,适用于革兰阴性细菌。

对比结果
独特预测能力:如右图显示,LEAPH 预测的 40%-61% 的效应蛋白未被其他两种方法识别到。表明 LEAPH 能够发现其他方法漏检的效应蛋白,尤其是一些具有特殊分泌特性的蛋白。

经典与非经典分泌蛋白的覆盖:LEAPH 预测的一些效应蛋白同时具有信号肽和 TMHMM2.0 识别的跨膜区(mTMRs),表明它们属于 经典分泌蛋白。LEAPH 虽然主要训练的是经典分泌效应蛋白数据集,但也能够 捕捉非经典分泌效应蛋白的特征

对非经典分泌蛋白的识别:虽然 LEAPH 与 SecretomeP2.0 的重叠较少,但这符合预期,因为 SecretomeP2.0 更适合革兰阴性细菌,而植原体是 革兰阳性细菌

3. 已验证效应蛋白的识别能力

实验验证结果
LEAPH 成功识别了:11 个已验证的经典分泌效应蛋白6 个非经典分泌效应蛋白中的 4 个
意义

4. 结论
全面性: LEAPH 能够预测到相当比例的效应蛋白,且这些蛋白中许多未被其他工具识别。
预测多样性:LEAPH 具备识别 经典分泌效应蛋白 的强大能力,同时能有效捕获 非经典分泌蛋白的特征
优越性:在对植原体效应蛋白的预测中,LEAPH 凭借其多模型设计和独特的特征捕捉能力,显著优于传统方法(如 SignalP4.1 和 SecretomeP2.0)。

image

LEAPH 预测效应蛋白的 PCA 分析与分泌类型分类

文章通过 PCA(主成分分析) 对 LEAPH 预测的效应蛋白进行了模式解析,揭示了不同分泌类型之间的分类特征,并验证了预测结果的准确性。

1. PCA 分析与分泌类型分类

左图:PCA 分析结果
观察结果:PCA 分析显示出 三个明显的分组
文章将这三组划分为:
1. 经典型(Classical):同时被预测到具有信号肽和 mTMR 的蛋白质分泌模式。
2. 类经典型(Classically Like):仅对 mTMR 有预测,未检测到信号肽。
3. 非经典型(Non-Classical):无信号肽或 mTMR 预测模式。

意义:LEAPH 的预测结果能够通过 PCA 显示明确的分泌类型特征,进一步支持其对效应蛋白分泌机制的理解。

2. 已知效应蛋白的验证

右图:已知效应蛋白在 PCA 空间中的定位
已知效应蛋白的分类:LEAPH 预测的 15 个已知效应蛋白在 PCA 分析中被标记
- 11 个经典型效应蛋白:均正确分布在经典型组中。
- 4 个非经典型效应蛋白:其中 2 个被正确定位到非经典组,另 2 个被错误归类。

序列检测与修正

对被错误归类的两个非经典效应蛋白进行序列检测:

修正分析:两个效应蛋白的重新定位验证了 LEAPH 分析的准确性
表明:
- PCA 的结果能够反映蛋白质分泌模式的真实生物学特征。
- LEAPH 能捕捉蛋白分泌特征的细微差异,即使初步分类中存在偏差。

3. 结论

image

PCA 分析中的属性映射与发现

文章进一步在 PCA 结果上映射了多种属性,揭示了效应蛋白的某些特性与 PCA 分组的关系,并分析了属性间的关联与独立性。

1. 属性映射:物种分布(左图)

观察结果
在 PCA 图中,将蛋白质按 物种来源 进行着色。
结果

意义

2. 属性映射:蛋白 N 端的细胞质定位概率(右图)

观察结果
将蛋白质按其 N 端具有细胞质位置的概率 映射到 PCA 图上。
结果PCA 分组显示了显著的分层现象

- 经典型组具有较低的细胞质定位概率。
- 非经典型组的概率更高。
- 类经典型组处于中间状态。

意义
N 端的细胞质定位概率可能是区分分泌类型的重要属性:

3. 属性映射:蛋白序列长度(未在图上展示)

观察结果
文章还提到,按 蛋白序列长度 映射到 PCA 图时,也可以观察到一定的分层现象。
结果:不同分泌类型的效应蛋白可能具有不同的序列长度特征
- 经典型 通常序列较短。
- 非经典型 则可能更长。

意义
序列长度可能是另一个区分分泌类型的特征,这与 LEAPH 捕捉的特征分布一致。

4. 结论

物种独立性:效应蛋白的分泌类型并不具有物种特异性,说明其特征是跨物种保守的。
分层能力

RESULTS:聚类分析

image

LEAPH 预测效应蛋白的结构域分析与生物学特性揭示

为深入研究 LEAPH 预测效应蛋白的结构特殊性,文章使用 InterProScan 5 工具对三类分泌类型的蛋白质结构域进行了预测与分析。结果显示,不同分泌类型的效应蛋白在结构域分布上具有显著差异,这与植原体的致病机理密切相关。

1. 结构域分布结果

经典分泌效应蛋白
主要结构域

类经典分泌效应蛋白
主要结构域

非经典分泌效应蛋白
主要结构域

2. 结构域与致病机制的关联
上述多种结构域(如 AAA+ ATP 酶、FtsH 等)已被证实与 植原体的发病机理和毒力机制 密切相关:

3. 结论与意义

  1. 分泌模式与功能特性: 不同分泌类型的效应蛋白表现出显著的结构域差异,反映了其在植原体致病过程中的不同功能角色。
  2. LEAPH 的预测优势: LEAPH 不仅可以根据分泌模式划分效应蛋白,还能通过结构域特征揭示与 发病机制和毒力 相关的功能特性。
  3. 植原体毒力机制研究:结构域分析为植原体效应蛋白的功能研究提供了新的视角,有助于理解植原体与植物宿主的交互机制。

image

LEAPH 效应蛋白的 SOM 聚类分析

文章采用 SOM(Self-Organizing Map,自组织映射)模型 对 LEAPH 预测的效应蛋白进行聚类分析,进一步验证了预测结果的准确性,并揭示了效应蛋白的特征分布模式。

1. SOM 模型与二维特征地图
SOM 模型工作原理

分析目标

2. SOM 聚类结果

分组结果与分布模式
分组情况
SOM 图将效应蛋白划分为 三组
1. 经典型(深绿色)
2. 类经典型(中绿色)
3. 非经典型(浅绿色)
结果与 PCA 分析一致,进一步支持 LEAPH 的预测能力。

图上特征分布

已知效应蛋白的定位
定位情况

3. 结论与意义
结论

意义

Conclusion

image

总结:LEAPH 的性能与展望

LEAPH 的优势

  1. 优秀的性能表现

    • LEAPH 在 召回率、精确度 等关键指标上显著优于其他效应蛋白预测工具。
    • 凭借高性能表现,能够更精准地预测效应蛋白。
  2. 综合的预测能力

    • 通过 四个不同的学习模型(随机森林、XGBoost、高斯朴素贝叶斯、多项式朴素贝叶斯)实现了更全面的预测范围。
    • 不同模型间的互补性,减少了漏检,提升了预测结果的可靠性。
  3. 深入的序列特征解析
    LEAPH 不仅能预测效应蛋白,还能解析其 序列特征,包括:

    • 分泌方式(经典型、类经典型、非经典型)。
    • 发病机理(毒力因子特性)。
    • 功能特性(如结构域分析显示的 AAA+ ATP 酶、FtsH 等关键区域)。
    • 提供了效应蛋白功能和机制研究的重要线索。
  4. 用户友好的展示

    • 借助 EffectorComb,使预测结果更加直观、清晰,便于研究者理解和应用。

LEAPH 的局限性

  1. 训练数据的偏向性

    • LEAPH 的训练数据库主要来自 Candidatus Phytoplasma 属,这可能限制其对其他属植原体蛋白的预测能力。
    • 对多样化数据集的覆盖不足,可能降低跨属预测的泛化性能。
  2. 潜在的依赖性

    • 对训练数据特征的依赖可能导致模型对未见特征的蛋白表现较弱。

总体评价
LEAPH 的贡献

未来改进方向