Cox-PASNet：基于通路的稀疏深度神经网络用于生存分析

张开发

• 2026/5/21 9:10:22 • 15 分钟阅读

分享文章

论文总结1、开发了基于通路的稀疏深度神经网络模型Cox-PASNet用于生存分析。2、提供了利用HDLSS数据训练深度神经网络模型的解决方案摘要深入理解与患者细胞和分子层面生存时间相关的复杂生物过程不仅对开发新治疗方法至关重要也有助于准确预测生存。然而高度非线性和高维、低样本量HDLSS数据在生存分析中带来了计算挑战。我们开发了一种新型基于通路的稀疏深度神经网络称为Cox-PASNet通过整合高维基因表达数据和临床数据进行生存分析。Cox-PASNet是一种可生物学解释的神经网络模型其中网络中的节点对应特定的基因和通路同时捕捉生物通路对患者生存的非线性和层级效应。我们还提供了利用HDLSS数据训练深度神经网络模型的解决方案。CoxPASNet通过比较不同尖端生存方法的性能进行评估如Cox-nnet、SurvivalNet和Cox弹性网Cox-EN。Cox-PASNet显著优于基准测试方法且对其卓越表现进行了统计评估。我们提供了一款用PyTorchhttps://github.com/DataX-JieHao/CoxPASNet实现的开源软件能够实现对Cox-PASNet的自动训练、评估和解读。引言在细胞和分子层面剖析与临床结局如患者生存时间相关的复杂生物过程不仅为开发新治疗方法提供深入的生物学见解也有助于准确预测临床结局[1]。高通量技术的先进分子平台能够产生高维基因组数据如基因表达数据从而提供丰富的人类疾病如癌症分子谱的生物学描述[2]。高维生物数据被越来越多地用于阐明其潜在的生物机制并支持临床决策。生存分析估算生存分布并研究生物和临床特征对患者生存时间的影响同时应对临床试验中的审查。生存分析中最广泛使用的方法是Cox比例风险模型Cox-PH这是一种半参数模型用于计算协变量对事件风险的影响[3]、[4]。Cox-PH假设患者协变量的线性组合可能与风险函数事件发生的瞬时发生率相关。Cox-PH模型和分层Cox模型对15,830名乳腺癌诊断女性的临床数据进行了研究[5]。通过对436名慢性病患者进行Cox-PH模型慢性疾病的影响已被发现影响乳腺癌患者的生存率[6]。然而传统的Cox-PH模型存在局限性1分析高维、低样本量HDLSS数据或2高度非线性数据。使用HDLSS数据训练模型是生物信息学中的一个挑战因为大多数生物数据的特征p远多于样本数n即pn。HDLSS数据常使模型训练不可行或引发过拟合问题[7]。因此低维数据如临床数据如年龄、性别和身体质量指数BMI通常被考虑用于使用Cox-PH模型进行生存分析。然而近年来越来越多的研究正在研究高维基因组数据揭示导致不同存活率的分子机制。为了解决Cox模型上的HDLSS问题研究中考虑了特征选择技术和正则化方法。Cox-PH模型引入了套索L1范数和弹性净惩罚[8]–[11]而特征选择方法则用于减少协变量数量[12]。在复杂的人类疾病中基因组数据与患者存活率的关系通常高度非线性而Cox-PH假设是线性关系。核技巧是将非线性效应转换为线性效果的标准解决方案适用于线性学习算法。提出了核Cox回归以捕捉基因表达数据与被审查存活数据之间的非线性效应[13]。在核Cox回归模型中考虑了在重现核希尔伯特空间RKHS中的正则化Cox偏似然。生存SVM模型采用核和稀疏正则化用于高维和非线性数据[14]。然而由于需要事先指定核函数因此很难确定数据的最优核函数。近年来深度学习方法受到关注这得益于高度非线性系统建模的能力和架构设计的灵活性。在生存分析中开发了多种深度学习方法并结合了Cox比例危害输出层。深沉Surv在深度全连接前馈神经网络中引入了Cox比例风险函数用于生存分析和个性化治疗建议[15]并与Cox-PH和随机生存森林在竞争中表现出竞争力。然而DeepSurv仅考虑低维临床数据仅在模拟数据和临床数据中检查了少量协变量p20。Cox-nnet 基于人工神经网络构建输出层设有 Cox 比例危害节点 [16]。引入了RNA-Seq的高通量转录组数据其表现优于正则化Cox-PH回归、随机生存森林和CoxBoost。Cox-nnet报告称隐藏层顶端节点上的基因表达高层表示与存活率相关每个隐藏层节点可能隐含反映生物过程。SurvivalNet通过基于Cox-nnet的贝叶斯优化优化深度生存模型以实现高通量多组学数据[17]。SurvivalNet 自动找到最优网络例如层数和节点数当数据维度较高时SurvivalNet 的性能略优于 Cox 弹性网Cox-EN和随机生存森林。风险反向传播分析使SurvivalNet能够通过生成每个特征的风险评分来解释。此外高层次的生物学解释例如分子通路之间的层级关系很少被强调而生物解释则常被考虑在低层次如基因表达水平上。基于通路的模型解释可以提供更直观且可解释的解决方案。基于通路的分析通常通过整合已知的生物学知识在基因组研究中产生显著的可重复性。例如基于通路的代谢特征的高阶功能表示为乳腺癌诊断提供了稳健且高度可重复的生物标志物[18]。复杂的生物系统可能涉及生物通路之间的层级关系。生物通路的层级连接可能导致不同的生存时间。例如针对抗病毒信号传导研究了具有受体通路和基因本体的层级表征[19]。因此将抑制和传播某一路径成分的影响纳入深度学习中的其他部分可以使模型变得可解释。本文提出一种基于通路的稀疏深度神经网络Cox-PASNet用于生存分析整合高维基因组数据和临床数据。Cox-PASNet在生存分析中的主要贡献包括1在生物通路层面中显式建模非线性和层级关系2能够解释模型其中各层节点对应基因和通路的生物成分;3将临床数据整合进深度学习模型;4提供高效解决方案用HDLSS数据训练复杂神经网络模型避免过拟合问题。本文其余部分的组织如下。我们在第二部分详细描述我们提出的Cox-PASNet方法。实验设计和结果详见第三部分。随后Cox-PASNet的最佳模型被解读并与GBM数据进行讨论模型中的生物学发现将在第四部分讨论。方法Cox-PASNet的架构Cox-PASNet结合了Cox比例风险回归与深度神经网络结合了对生物通路的先验知识。Cox-PASNet的架构由1基因层2通路层3多层隐藏层4临床层以及5Cox层组成。1基因层基因层是CoxPASNet的输入层引入n个p基因表达的患者样本的基因表达数据。在基于通路的分析中基因层只考虑属于至少一条通路的基因。2通路层通路层代表生物通路节点表示特定的生物通路。通路层包含了先前的生物学知识使模型能够从生物学角度解释。通路数据库例如KEGG和Reactome包含一组参与通路的基因每条通路描述一个生物过程。对基因与通路之间已知关联的知识在CoxPASNet中明确形成了基因层与通路层之间的稀疏连接而非完全连接两层。为了实现基因层与通路层之间的稀疏连接我们考虑了二元双邻接矩阵。给定包含p个基因对和q条通路的通路数据库构造出二元双邻接矩阵A ∈ Bq×p其中元素aij为1若基因j属于通路i否则为0即A {aij|1 ≤ i ≤ q 1 ≤ j ≤ p} 和 aij {0 1}。 3隐藏层隐藏层模拟了路径的非线性和层级效应。通路层中的节点值表示生物系统中单一通路的活跃/非活跃状态而隐藏层则显示多条通路的交互效应。更深层的隐藏层表达了生物通路的高层次表征。4临床层临床层将临床数据与基因组数据分开引入模型。临床数据的维度通常远小于基因组数据因此在将临床数据引入基因组数据时往往容易被忽略。在Cox-PASNet中基因表达数据的复杂遗传效应从基因层捕捉到隐藏层而临床数据则直接与最高层的基因组数据表示即最后隐藏层的节点值一起引入输出层。因此Cox-PASNet在神经网络模型中分别考虑基因组数据和临床数据的影响。5Cox层Cox层是只有一个节点的输出层。节点值根据基因组和临床数据生成线性预测因子即预后指数PI并将其引入Cox-PH模型。注意根据Cox模型的设计Cox层没有偏置节点。此外我们引入了稀疏编码使模型能够从生物学角度解释并减少过拟合。在生物系统中参与生物过程的生物成分很少。稀疏编码使模型仅包含重要组件从而更好地解释生物模型。稀疏编码通过掩膜矩阵应用于基因层到最后隐藏层的连接。图1Cox-PASNet的架构损失函数为了在Cox层上进行Cox比例风险回归Cox-PASNet利用带L2正则化的平均负对数偏似然定义了目标函数其中 Θ {β W} 是一组参数β 是 Cox 比例危害系数最后一隐藏层与 Cox 层之间的权重W 是 Cox 层前各层权重矩阵的并集hlast 是最后一隐藏层输出与临床层临床输入的积分。E 是一组未审查的样本nE 是未审查样本的总数RTi {i|Ti ≥ t} 是一组在时间 t 处有失效风险的样本集合。‖W‖2 和 ‖β‖2 分别是 W 和 β 的 L2 范数λ 是避免过拟合的正则化超参数λ 0。Cox-PASNet训练我们提出了一种优化策略用HDLSS数据训练Cox-PASNet目标函数中进行L2正则化。我们通过部分训练小子网络并采用稀疏编码来优化模型。训练一个小子网络保证每个纪元中仅用少量参数进行可行优化。Cox-PASNet的整体训练流程如图2所示。图层初始设置为完全连通权重和偏置随机初始化。特别是基因层与通路层之间的连接被双邻接矩阵强制稀疏Cox层不包含偏置节点。在不含Cox层的隐藏层中通过脱离技术随机选择一个小型子网络见图2a。然后通过反向传播优化子网络的权重和偏差。子网络训练完成后通过修剪小网络中不贡献或加重的连接对子网络施加稀疏编码以最大限度减少损失。在图2b中连接和被稀疏编码丢弃的节点用加粗虚线标记。稀疏编码稀疏编码通过掩模矩阵实现。二进制掩罩矩阵M控制子网络中每一层的稀疏度水平其中一个元素表示对应权重是否被剔除。然后层中的输出计算为h 1 a W M h b 2 其中表示逐元素乘法算子a· 是非线性激活函数例如 sigmoid 或 Tanh。 h 是第层的输出W 和 b 分别是权重矩阵和偏置向量。1≤ ≤ L − 2其中 L 是层数。特别地如果M中的元素权重绝对值大于阈值s 则为1否则为零。注意基因层与通路层之间的掩膜即M0由生物通路的双邻接矩阵A决定。因此掩膜矩阵表述为 M { 1|W |≥ s 如果 0 A则 0。3 在子网络的每一层估计最优稀疏度水平s 以生成掩模矩阵。为了高效近似最优稀疏度水平成本分数通过在 s [0 100 范围内的各种有限稀疏水平计算其中 0 表示完全连通的层100 表示不连通的层。然后我们通过对有限计算的成本分数应用三次值值插值近似稀疏度水平的代价函数一组S。最后考虑使成本得分最小化的稀疏水平作为最优稀疏水平。最优 s 在子网络的每一层上单独近似。每层稀疏度的个体优化代表基因和通路上不同层次的生物关联。实验数据集本研究中我们考虑了多形性胶质母细胞瘤GBM癌症以评估Cox-PASNet。GBM是最侵袭性的恶性脑瘤类型预后表现较差[20]。GBM的基因表达和临床数据来自癌症基因组图谱TCGAhttp://cancergenome.nih.gov。缺乏存活时间或存活状态的样本被过滤掉。生物通路的先前知识来源于分子特征数据库MSigDB[21]。共计860条来自KEGG和Reactome通路数据库的通路进行基于通路的分析。然后只研究至少属于一条通路的基因。综合分析中我们纳入了GBM患者的临床信息。大多数临床数据存在大量缺失值。因此我们仅纳入年龄因为年龄已被报道为GBM预后预测的重要协变量[22]。虽然Karnofsky表现评分KPS被报告为显著且具有显著性但KPS与年龄高度相关且存在许多缺失值。因此我们只在Cox-PASNet的临床层增加了年龄。最后我们使用了522个GBM样本中的5,567个基因、860条通路和临床年龄数据。实验设计通过比较Cox-EN [10]、Cox-nnet [16]和SurvivalNet [17]的表现来评估Cox-PASNet。四个模型的性能通过C指数评估这是一种非参数指标用于计算预测风险比与实际生存时间之间的一致性。C指数的值范围介于0到1之间其中1表示完美的模型预测0.5表示随机猜测。数据集被随机分为训练64%、验证16%和测试20%数据同时保持审查状态在审查与未审查样本之间的比例。训练数据中的基因表达和临床数据标准化为均值为零标准差为1。验证数据和测试数据均与训练数据的均值和标准差进行了归一化。每个模型都由训练数据进行训练;通过验证数据获得了最优超参数;我们通过测试数据评估模型性能。实验重复了20多次以保证模型性能的可重复性。Cox-PASNet采用了现代深度学习设计。我们用Tanh函数作为激活函数。同时考虑了脱落和第二语言正则化。进行了自适应矩估计Adam以优化一阶梯度[23]。网格搜索技术估计了最佳初始学习率η和L2正则化λ。选择了利用验证数据最小化成本函数的η和λ作为最优超参数。通路层和后续隐藏层的中断率分别被实证设定为0.7和0.5。由PyTorch实现的Cox-PASNet开源代码可在 https://github.com/DataXJieHao/Cox-PASNet 获取。Cox-EN 模型使用 Python 中的 Glmnet Vignette 包实现 [10]。α和λ的超参数通过网格搜索进行了优化。我们考虑了α值介于0到1之间步长为0.01和200 λs。随后Cox-EN采用了最小化成本函数的最优超参数。Cox-nnet 是基于作者提供的开源代码进行的。型号的调校设置遵循了他们的建议。采用了网格搜索L2。另一方面SurvivalNet的最优超参数通过贝叶斯优化技术BayesOpt进行了优化[24]。我们还考虑了贝叶斯优化中L1和L2正则化的超参数除了它们的默认设置外。SurvivalNet 通过其开源 Theano 实现。在数据集成中年龄和基因表达的临床数据被合并成输入矩阵并导入Cox-EN、SurvivalNet和Cox-nnet进行实验而Cox-PASNet则分别将基因表达数据引入基因层临床数据分别引入临床层。实验结果实验结果如图3所示。CoxPASNet显示的C指数最高为0.6463±0.0332而Cox-nnet显示的C指数为0.6187±0.0507排名第二。Cox-nnet 是 SurvivalNet 的一个简化模型仅包含一个隐藏层。另一方面SurvivalNet 是一个广义全联通神经网络模型用于生存分析采用 cox 模型其最优架构由贝叶斯优化技术确定。Cox-nnet报告称简单的神经网络架构通常比深度网络更优[16]。Cox-EN的c指数为0.5089±0.0362接近随机猜测。这可能是由于HDLSS数据高度非线性包含522个样本中的5,567个特征。该表现的统计显著性通过Wilcoxon秩和检验进行评估。Cox-PASNet产生的C指数得分分布显著高于表I中的其他指标。Cox-PASNet与Cox-nnet和SurvivalNet共享负对数部分似然的成本函数。然而CoxPASNet基于对生物通路的先验知识构建神经网络而这种生物启发的架构可能产生更好的性能降低噪声源自数据复杂性。Cox-PASNet还培训用子网络建模以避免HDLSS数据的过拟合问题。卓越的表现支持了新架构Cox-PASNet和培训战略的贡献。GBM中的模型解释对于Cox-PASNet的生物模型解释我们用20个实验中最优超参数对重新训练使用所有可用样本。数据根据中位预后指数PI分为高风险组和低风险组该中位数为Cox-PASNet的输出值。最后一个隐藏层H2中两组的节点值如图4所示。图4中31个协变量的节点值基因组数据30个临床数据年龄按H2与Cox层之间的绝对权重排序。年龄图4a的第一列被显示为生存分析中最重要的协变量。排名最高的协变量明显显示高风险组和低风险组之间的分布差异。例如图4a中前三个协变量的节点在高风险组中被激活但在低风险组中被灭活。此外我们再次将协变量的节点值按中位数单独分为两组并进行了对数秩检验。通过对数秩检验计算的-log10p值如上图所示与图4a中的协变量对齐。红色三角形标记显示显著协变量-log10p值1.3而蓝色标记显示无显著协变量。对数秩检验显示绝对权重排名最高的协变量与生存预测相关。图4b – 4e展示了前四个协变量的Kaplan-Meier曲线两组存活率显著不同。因此排名靠前的协变量可视为预后因子。图5展示了Cox-PASNet中生物通路的层级表示。表示一个通路节点通过相关基因节点的非线性效应隐藏节点表达了一组通路的高层表示。以下隐藏层描述了之前隐藏节点的层级表示。然后最后的隐藏节点被引入带有临床数据的Cox-PH模型。通路节点值显示对应通路的活跃或非活跃状态可能与差异性存活有关例如视紫红质样受体A/1类。相关基因对活性通路的重要性可以通过基因层与通路层之间的绝对权重值例如POMC进行排名。一组活跃通路被表示在下一隐藏层的活跃节点中从而提升生存预测。例如节点30和PI的Kaplan-Meier图显示的存活估计与视紫红质样受体A/1类更为相似。总结图5Cox-PASNet中的层级和关联特征表示我们开发了一个基于通路的稀疏深度神经网络Cox-PASNet用于生存分析结合深度神经网络上的CoxPH模型。Cox-PASNet构建了神经网络模型能够描述生物途径的非线性和层级效应并为准确预测患者生存率提供重要的预后因素。论文还介绍了一种利用HDLSS数据训练深度神经网络模型的新策略。Cox-PASNet优于当前的前沿生存方法如Cox-nnet、SurvivalNet和Cox-EN其预测表现也经过统计评估。在Cox-PASNet中Cox-nnet和SurvivalNet也提出了输出层单节点的负对数偏似然。然而Cox-PASNet基于生物通路构建神经网络编码稀疏。基因组和临床数据分别导入模型进行解释。Cox-PASNet整合了临床数据和基因组数据。然而高维基因组数据可能因基因组与临床协变量之间的大小不平衡而导致临床数据偏差。此外结合DNA突变、拷贝数变异、DNA甲基化和mRNA等多组学数据对于描述涉及多生物过程中复杂相互作用的复杂人类疾病至关重要。未来仍希望能解决复杂异构数据的集成问题