Brief Bioinform | 从“算法预测”到“质谱证据”:蛋白质组学如何让肿瘤新抗原发现更可靠

2026-02-12


肿瘤新抗原(neoantigen)作为个体化肿瘤免疫治疗的“黄金靶点”,凭借肿瘤特异性表达的核心特征,成为个体化疫苗与TCR-T疗法开发的核心方向。这类源于肿瘤基因组、转录组或蛋白质组变异的肽段,能精准激发T细胞特异性免疫应答,且对正常组织损伤风险低,理论上具备理想的治疗特异性。但真实研究中,新抗原发现却始终存在一个核心痛点——仅依赖基因测序与算法预测,往往会产生大量“看似合理但难以验证/转化”的候选。现有基于机器学习的新抗原预测工具在以 WES 检出的突变为输入时,整体准确率通常≤5%;一个重要原因是DNA层面的变异并不必然转化为可检测的蛋白产物。越来越多研究意识到,新抗原并非“预测出来”即具备应用价值,更需要被证明“在蛋白层面真实存在”。2025年发表在《Briefings In Bioinformatics》期刊的这篇综述,便系统梳理了如何把以液相色谱-串联质谱(LC–MS/MS)为核心的蛋白质组学与基因组/转录组整合,推动肿瘤新抗原发现向更精准、高效的方向发展[1]。


一、传统基于基因测序的新抗原筛选流程:局限与瓶颈


经典的新抗原筛选流程可概括为:突变检测→ HLA分型→ MHC结合预测→ T细胞识别/免疫原性预测)。这一系列步骤旨在模拟体内抗原加工与呈递:内源性蛋白降解为肽段后,与MHC-I分子结合形成p-MHC复合体并在细胞膜呈递,进而触发CD8T细胞反应;外源性抗原则更多通过MHC-II通路并与CD4T细胞相关(图1)。


目前已有多款成熟工具提升了筛选的速度与规模,包括HLA分型(如OptiType、Polysolver、PHLAT)、MHC结合预测(如NetMHCpan、MixMHCpred、MHCflurry)、T细胞识别相关预测(如PRIME、DeepNeo-TCR、TEIM-Res),以及整合式管线(如pVACtools、MuPeXI、OpenVax等),但它们仍存在一个共同未解决的核心问题:它们以DNA/RNA层面的“可能性”作为起点,而缺少对蛋白层面“是否真的产生该肽段”的直接验证,这也是仅靠算法预测整体准确率偏低的重要原因之一。针对这一点,综述提出的思路是:引入LC–MS/MS 蛋白质组学数据,为候选新抗原提供蛋白层面证据,从而减少仅凭 DNA/RNA 推断造成的误判与遗漏。

图1 新抗原生成机制和传统基于基因测序的筛选预测流程


二、为何要在蛋白质水平研究新抗原?


蛋白质组学的核心价值,在于为新抗原的存在提供了接近“生物功能”的直接证据。蛋白是生物功能的执行者,LC–MS/MS能够直接捕捉成功翻译的变异产物,从而弥补仅靠DNA/RNA推断造成的偏差。更重要的是,MS证据还能覆盖一些“仅靠突变预测不容易完整捕捉”的来源,包括可变剪接、基因融合,以及来自非编码区或环状RNA翻译的产物,从而提升新抗原识别的数量与准确性。此外,蛋白质组数据已经通过公共数据库实现较好的共享与复用(如ProteomeXchange、PRIDE),为方法比较与再分析提供了条件。


三、蛋白质组学鉴定新抗原:两条技术主线


1. 数据库检索(database-based search):关键在构建高质量的参考序列库


鸟枪法蛋白质组学的常规流程为:蛋白经酶切得到肽段,通过LC–MS/MS采集谱图,再与参考序列库(FASTA)生成的理论谱图进行匹配并评分,得到肽段与蛋白鉴定结果(图2)。而本文指出,数据库检索能否支持新抗原发现,高度依赖参考序列库的完整性:需要“综合参考序列库”或基于RNA-seq的“自参考序列库(self-reference)”。而除此外,可变剪接也是新抗原的重要来源:虽然可利用如OncoSplicing这类资源整合剪接事件,但缺少可直接用于检索的剪接变体FASTA参考库;另一种思路是使用proteomeGenerator基于RNA序列生成个体化参考库并结合MaxQuant等工具进行匹配,但通常需要肿瘤样本同时具备RNA-seq与蛋白质组数据,并带来更高成本与计算负担。


图 2 鸟枪法蛋白质组学核心流程

 

2. 从头测序(de novo sequencing):不依赖数据库,但需要验证与评估


从头测序不依赖参考数据库,而是直接从谱图生成肽段序列(图3)。从头测序不仅避开数据库构建问题,还可能识别超出既有知识范围的肽段,因此在新抗原识别场景中具有鲜明优势。典型算法包括基于机器学习 (PEAKS、PepNovo、pNovo、Novor等),和深度学习(DeepNovo、PointNovo、Casanovo)的工具;针对MS数据中常见的碎片缺失问题,又出现了GraphNovo与Spectralis等专门改进工具。基于深度学习的工具,因在序列任务中更善于捕捉长程依赖而成为重要方向,但通常对算力与使用者的模型理解要求更高,对不同物种数据上的性能差异明显的问题突出,需要用高质量数据进行微调以提升适配性,易用性不及商业化软件。

图 3从头肽测序算法的发展与性能比较


四、对比数据库搜索和从头测序策略鉴定新抗原的结果


为明确数据库检索与从头测序在新抗原鉴定中的实际表现,本文比较了同一批肝癌数据通过数据库检索与从头测序的鉴定结果(图4)。结果表明,数据库检索(MaxQuant)得到329个候选新抗原肽段de novo(Casanovo)得到252个候选新抗原肽段;两者交集只有13个,反映出它们各自捕获不同类型的突变肽段。其中,Casanovo 存在技术重复一致性不足及缺少成熟评估机制的问题,但鉴定结果更贴合肝癌临床突变频率;MaxQuant 虽严格过滤后被认为更具置信度,却难以覆盖高频突变基因。目前,DDA与DIA采集技术在新抗原检测中的性能差异,仍有待于进一步的系统性研究。

图 4搜库和从头测序策略鉴定新抗原结果的比较


五、全新工作流:MS+RNA-seq 整合实现精准新抗原发现


基于上述技术局限性,本文提出了整合MS与 RNA-seq 数据的新工作流,根据数据类型灵活选择策略:


1.      仅使用MS数据:用综合癌症变异库做数据库检索,操作简便但鉴定数量有限;

2.      使用MS+RNA-seq配对数据:构建个体化自参考库,或用从头测序预测肽段,基于患者RNA-seq数据构建肿瘤特异序列参考库比对验证,兼顾数量与可信度。

 

图 5 基于数据类型选择分析策略:MS+RNA-seq可获得更多可靠新抗原

结语

癌症新抗原的精准发现是个性化免疫治疗的核心前提。蛋白质组学凭借直接检测蛋白产物的独特优势,结合从头测序不依赖数据库的分析能力,有望提升新抗原检测的数量和准确性。综述提出的MS+RNA-seq整合工作流,为新抗原发现提供了新解决方案。随着纳米孔测序等新技术的成熟,蛋白质组学有望成为新抗原筛选的重要流程,推动癌症疫苗从实验室走向临床,为更多患者带来精准免疫治疗的希望。

 

关注点


(1)这篇文献指出,单靠WES +算法预测新抗原,命中率往往只有5%或更低,重要原因是缺乏蛋白层面的直接验证;


(2)比对研究显示,搜库与从头测序结果重叠较少,但从头测序的肽段更贴合临床突变频率。除质控和准确性的因素外,一个重要原因是二者鉴定的突变肽段来源不同:搜库能找到的肽段,必须先被“写进”参考FASTA/变异库;而从头测序不依赖数据库,有机会捕获参考库未覆盖的样本特异序列(例如未充分建库的剪接/融合/非典型ORF等潜在来源),这对从头测序软件的准确性提出了高要求;


(3)Rapid Novor快序生物升级迭代后的Novor软件经布鲁克测试,每秒可解析超1000张谱图,且无酶切特异性与物种偏好,为肿瘤新抗原鉴定提供了高效可靠的技术支撑[2]。快序近期合作发表的学术论文,也再次证实了从头测序高效发现公共新抗原用于TCR-T疗法开发的显著潜力[3]。


参考资料

[1] Luo S, Peng H, Shi Y, et al. Integration of proteomics profiling data to facilitate discovery of cancer neoantigens: a survey. Brief Bioinform. 2025;26(2):bbaf087. doi:10.1093/bib/bbaf087

[2] https://www.bruker.com/zh/products-and-solutions/mass-spectrometry/ms-software/proteoscape.html

[3] Shen L, Chen Z, Xu J, et al. T cell receptor-engineered T cells targeting the TP53R248Q neoantigen elicit antitumor effects in human cancer models.J Clin Invest. Published online January 13, 2026. doi:10.1172/JCI196613