Brief Bioinform | 从“算法预测”到“质谱证据”：蛋白质组学如何让肿瘤新抗原发现更可靠

肿瘤新抗原（neoantigen）作为个体化肿瘤免疫治疗的“黄金靶点”，凭借肿瘤特异性表达的核心特征，成为个体化疫苗与TCR-T疗法开发的核心方向。这类源于肿瘤基因组、转录组或蛋白质组变异的肽段，能精准激发T细胞特异性免疫应答，且对正常组织损伤风险低，理论上具备理想的治疗特异性。但真实研究中，新抗原发现却始终存在一个核心痛点——仅依赖基因测序与算法预测，往往会产生大量“看似合理但难以验证/转化”的候选。现有基于机器学习的新抗原预测工具在以 WES 检出的突变为输入时，整体准确率通常≤5%；一个重要原因是DNA层面的变异并不必然转化为可检测的蛋白产物。越来越多研究意识到，新抗原并非“预测出来”即具备应用价值，更需要被证明“在蛋白层面真实存在”。2025年发表在《Briefings In Bioinformatics》期刊的这篇综述，便系统梳理了如何把以液相色谱-串联质谱（LC–MS/MS）为核心的蛋白质组学与基因组/转录组整合，推动肿瘤新抗原发现向更精准、高效的方向发展[1]。

一、传统基于基因测序的新抗原筛选流程：局限与瓶颈

经典的新抗原筛选流程可概括为：突变检测→ HLA分型→ MHC结合预测→ T细胞识别/免疫原性预测）。这一系列步骤旨在模拟体内抗原加工与呈递：内源性蛋白降解为肽段后，与MHC-I分子结合形成p-MHC复合体并在细胞膜呈递，进而触发CD8⁺T细胞反应；外源性抗原则更多通过MHC-II通路并与CD4⁺T细胞相关（图1）。

目前已有多款成熟工具提升了筛选的速度与规模，包括HLA分型（如OptiType、Polysolver、PHLAT）、MHC结合预测（如NetMHCpan、MixMHCpred、MHCflurry）、T细胞识别相关预测（如PRIME、DeepNeo-TCR、TEIM-Res），以及整合式管线（如pVACtools、MuPeXI、OpenVax等），但它们仍存在一个共同未解决的核心问题：它们以DNA/RNA层面的“可能性”作为起点，而缺少对蛋白层面“是否真的产生该肽段”的直接验证，这也是仅靠算法预测整体准确率偏低的重要原因之一。针对这一点，综述提出的思路是：引入LC–MS/MS 蛋白质组学数据，为候选新抗原提供蛋白层面证据，从而减少仅凭 DNA/RNA 推断造成的误判与遗漏。

图1 新抗原生成机制和传统基于基因测序的筛选预测流程

二、为何要在蛋白质水平研究新抗原？

蛋白质组学的核心价值，在于为新抗原的存在提供了接近“生物功能”的直接证据。蛋白是生物功能的执行者，LC–MS/MS能够直接捕捉成功翻译的变异产物，从而弥补仅靠DNA/RNA推断造成的偏差。更重要的是，MS证据还能覆盖一些“仅靠突变预测不容易完整捕捉”的来源，包括可变剪接、基因融合，以及来自非编码区或环状RNA翻译的产物，从而提升新抗原识别的数量与准确性。此外，蛋白质组数据已经通过公共数据库实现较好的共享与复用（如ProteomeXchange、PRIDE），为方法比较与再分析提供了条件。

三、蛋白质组学鉴定新抗原：两条技术主线

1. 数据库检索（database-based search）：关键在构建高质量的参考序列库

鸟枪法蛋白质组学的常规流程为：蛋白经酶切得到肽段，通过LC–MS/MS采集谱图，再与参考序列库（FASTA）生成的理论谱图进行匹配并评分，得到肽段与蛋白鉴定结果（图2）。而本文指出，数据库检索能否支持新抗原发现，高度依赖参考序列库的完整性：需要“综合参考序列库”或基于RNA-seq的“自参考序列库（self-reference）”。而除此外，可变剪接也是新抗原的重要来源：虽然可利用如OncoSplicing这类资源整合剪接事件，但缺少可直接用于检索的剪接变体FASTA参考库；另一种思路是使用proteomeGenerator基于RNA序列生成个体化参考库并结合MaxQuant等工具进行匹配，但通常需要肿瘤样本同时具备RNA-seq与蛋白质组数据，并带来更高成本与计算负担。

图 2 鸟枪法蛋白质组学核心流程

2. 从头测序（de novo sequencing）：不依赖数据库，但需要验证与评估

从头测序不依赖参考数据库，而是直接从谱图生成肽段序列（图3）。从头测序不仅避开数据库构建问题，还可能识别超出既有知识范围的肽段，因此在新抗原识别场景中具有鲜明优势。典型算法包括基于机器学习 (PEAKS、PepNovo、pNovo、Novor等），和深度学习（DeepNovo、PointNovo、Casanovo）的工具；针对MS数据中常见的碎片缺失问题，又出现了GraphNovo与Spectralis等专门改进工具。基于深度学习的工具，因在序列任务中更善于捕捉长程依赖而成为重要方向，但通常对算力与使用者的模型理解要求更高，对不同物种数据上的性能差异明显的问题突出，需要用高质量数据进行微调以提升适配性，易用性不及商业化软件。

图 3从头肽测序算法的发展与性能比较

四、对比数据库搜索和从头测序策略鉴定新抗原的结果

为明确数据库检索与从头测序在新抗原鉴定中的实际表现，本文比较了同一批肝癌数据通过数据库检索与从头测序的鉴定结果（图4）。结果表明，数据库检索（MaxQuant）得到329个候选新抗原肽段；de novo（Casanovo）得到252个候选新抗原肽段；两者交集只有13个，反映出它们各自捕获不同类型的突变肽段。其中，Casanovo 存在技术重复一致性不足及缺少成熟评估机制的问题，但鉴定结果更贴合肝癌临床突变频率；MaxQuant 虽严格过滤后被认为更具置信度，却难以覆盖高频突变基因。目前，DDA与DIA采集技术在新抗原检测中的性能差异，仍有待于进一步的系统性研究。

图 4搜库和从头测序策略鉴定新抗原结果的比较

五、全新工作流：MS+RNA-seq 整合实现精准新抗原发现

基于上述技术局限性，本文提出了整合MS与 RNA-seq 数据的新工作流，根据数据类型灵活选择策略：

1. 仅使用MS数据：用综合癌症变异库做数据库检索，操作简便但鉴定数量有限；

2. 使用MS+RNA-seq配对数据：构建个体化自参考库，或用从头测序预测肽段，基于患者RNA-seq数据构建肿瘤特异序列参考库比对验证，兼顾数量与可信度。

图 5 基于数据类型选择分析策略：MS+RNA-seq可获得更多可靠新抗原

结语

癌症新抗原的精准发现是个性化免疫治疗的核心前提。蛋白质组学凭借直接检测蛋白产物的独特优势，结合从头测序不依赖数据库的分析能力，有望提升新抗原检测的数量和准确性。综述提出的MS+RNA-seq整合工作流，为新抗原发现提供了新解决方案。随着纳米孔测序等新技术的成熟，蛋白质组学有望成为新抗原筛选的重要流程，推动癌症疫苗从实验室走向临床，为更多患者带来精准免疫治疗的希望。

关注点

（1）这篇文献指出，单靠WES +算法预测新抗原，命中率往往只有5%或更低，重要原因是缺乏蛋白层面的直接验证；

（2）比对研究显示，搜库与从头测序结果重叠较少，但从头测序的肽段更贴合临床突变频率。除质控和准确性的因素外，一个重要原因是二者鉴定的突变肽段来源不同：搜库能找到的肽段，必须先被“写进”参考FASTA/变异库；而从头测序不依赖数据库，有机会捕获参考库未覆盖的样本特异序列（例如未充分建库的剪接/融合/非典型ORF等潜在来源），这对从头测序软件的准确性提出了高要求；

（3）Rapid Novor快序生物升级迭代后的Novor软件经布鲁克测试，每秒可解析超1000张谱图，且无酶切特异性与物种偏好，为肿瘤新抗原鉴定提供了高效可靠的技术支撑[2]。快序近期合作发表的学术论文，也再次证实了从头测序高效发现公共新抗原用于TCR-T疗法开发的显著潜力[3]。

参考资料

[1] Luo S, Peng H, Shi Y, et al. Integration of proteomics profiling data to facilitate discovery of cancer neoantigens: a survey. Brief Bioinform. 2025;26(2):bbaf087. doi:10.1093/bib/bbaf087

[2] https://www.bruker.com/zh/products-and-solutions/mass-spectrometry/ms-software/proteoscape.html

[3] Shen L, Chen Z, Xu J, et al. T cell receptor-engineered T cells targeting the TP53R248Q neoantigen elicit antitumor effects in human cancer models.J Clin Invest. Published online January 13, 2026. doi:10.1172/JCI196613