【Cell Systems】SpotGF空间转录组去噪算法文献分享

张开发
2026/4/16 17:01:30 15 分钟阅读

分享文章

【Cell Systems】SpotGF空间转录组去噪算法文献分享
目录题目摘要介绍结果结果1​​SRT数据中存在的噪声会阻碍下游分析的开展。​​结果2SRT数据的去噪方案​​​SpotGF ​​​SpotGF 在实际数据中的工作原理与性能验证​​​​SpotGF评分准确反映基因扩散程度的验证​​结果3SpotGF 能有效过滤SRT数据中的扩散基因​​​​SpotGF 提升聚类精度的原因解析​​SpotGF 在模拟噪声与真实场景中的去噪优势​​结果4SpotGF 提高了SRT数据中上调基因鉴定的准确性​​结果5SpotGF 有助于提升聚类分析效果与细胞类型推断准确性​​结果6​​SpotGF 提高了在人类结直肠癌中识别肿瘤细胞的准确性​​​SpotGF 提升了肿瘤相关上调基因的比例与特异性​​讨论​​空间分辨转录组学SRT数据中的噪声问题与 SpotGF 的解决方案​​SpotGF通过过滤“无效基因”实现 SRT 数据去噪​​​​SpotGF 作为识别空间变异基因SVGs的强大工具​​​​SpotGF提升 SRT 数据质量助力精准生物学解读​​放在前面文章链接SpotGF: Denoising spatially resolved transcriptomics data using an optimal transport-based gene filtering algorithm: Cell Systems工具github链接GitHub - illuminate6060/SpotGF: SpotGF: Denoising Spatially Resolved Transcriptomics Data Using an Optimal Transport-Based Gene Filtering Algorithm其他相关链接GitHub - illuminate6060/SpotGF_data_form_change这篇发表到cell systemsIF:9.3,Q1上并入选为了封面文章。与大家一起学习~题目SpotGF基于最优传输的基因过滤算法用于空间转录组学数据去噪研究摘要​​空间分辨转录组学SRT​​将基因表达谱与细胞在其天然状态下的物理位置相结合但由于冷冻切片过程中细胞受损以及染色和mRNA释放试剂的暴露容易受到不可预测的空间噪声影响。为解决这一问题我们开发了 ​​SpotGF​​——一种基于最优传输的基因过滤算法用于对空间分辨转录组学数据进行去噪。SpotGF通过数值化量化扩散模式区分广泛表达基因与聚集表达基因并将前者作为噪声进行过滤。与传统去噪方法不同SpotGF保留原始测序数据从而避免了因插补可能产生的假阳性结果。此外SpotGF在聚类分析、潜在标记基因识别及细胞类型注释方面均展现出卓越的性能。总体而言SpotGF有望成为空间分辨转录组学数据下游分析中一个关键的预处理步骤。介绍​​ 空间分辨转录组学SRT技术​​将高通量基因测序与组织学技术相结合在提供基因表达数据的同时还能结合细胞壁荧光染料Calcofluor WhiteCW或细胞核染料4,6-二脒基-2-苯基吲哚二盐酸盐DAPI等染色图像反映细胞在空间中的分布信息。SRT数据通过包含空间位置信息有助于分析细胞类型推动细胞功能发现、细胞互作研究等多种分析工作。理想情况下每个位于特定位置的测序单元在不同技术中称为“珠子”或“位点”应仅捕获原位细胞释放的转录本。然而由于实验环境中液相条件下的随机扩散SRT也可能捕获非原位的转录本。这种扩散会在SRT数据中引入复杂的噪声其复杂程度甚至超过单细胞RNA测序scRNA-seq中常见的“dropout”现象。导致SRT数据噪声的主要因素有三​​首先​​在组织冷冻切片后冷冻切片会被固定在空间转录组芯片的表面以进行透化处理。这些芯片旨在捕获细胞释放的信使RNAmRNA但若细胞透化不完全则会阻碍芯片上位于细胞下方的位点捕获mRNA导致这些位点上方的mRNA发生随机漂移相反如果细胞透化过度则会导致大量mRNA被释放这些mRNA可能被邻近的位点捕获。此外由于细胞透化是在液相环境中进行的受热运动和分子无规则运动的影响mRNA的漂移是一种随机事件。​​其次​​在RNA测序的反转录和扩增过程中也可能发生转录本的扩散。RNA与反转录酶形成的复合物可能会破坏部分RNA或导致其泄漏。不当的结合或反应条件可能在cDNA合成过程中通过引物诱导RNA扩散。​​最后​​在SRT数据处理过程中若采用不恰当的算法、参数或质量控制标准也会增加假阳性噪声。此外SpotClean曾深入讨论过组织和背景之间的转录本交换问题而Sprod则在10X Visium卵巢癌数据集中验证了复杂的空间噪声存在。针对SRT数据中的噪声研究者已尝试多种解决方法。最初研究人员采用了为解决scRNA-seq中“dropout”问题而开发的表达插补策略例如Magic、scImpute和SAVER。然而这些方法对于SRT数据中具有空间相关性的噪声效果有限。随后研究者开发了专门针对SRT数据空间噪声的定制算法。例如Sprod利用匹配位置的位置信息和相应的成像数据来对SRT数据进行去噪SpotClean则通过概率模型降低噪声并通过转录本交换调整唯一分子标识符UMI计数。这些方法试图通过统计手段模拟SRT数据中的转录本扩散模式并对原始UMI计数进行修改。然而受实验操作影响的随机且无方向性的转录本扩散使得对这些模式的准确建模面临挑战。上述基于统计的算法主要聚焦于数据修改和插补因而可能在SRT数据中引入假阳性表达掩盖那些低表达的原位基因。此外实验噪声和假阳性数据还会干扰下游的聚类分析特别是在Louvain和Leiden等社区检测算法中表现尤为明显。因此我们提出将SRT数据中的基因分为两类一类是具有明显空间聚集特征的基因视为有效信号即“有效基因”另一类是具有高扩散水平的基因视为噪声即“无效基因”。为了减轻转录本扩散所带来噪声的影响我们通过排除具有高扩散水平的“无效基因”来增强“有效基因”的信号。我们证明在开展任何下游分析之前进行此类去噪处理具有至关重要的意义。结果结果1​​SRT数据中存在的噪声会阻碍下游分析的开展。​​由于转录本扩散噪声在SRT数据中普遍存在我们重点在两种主流的空间分辨转录组学技术——Stereo-seq 和 10X Visium 上对该现象进行了研究。在此我们验证了Stereo-seq大豆根系数据中UMI计数的扩散现象。在使用200格100微米方格的数据时我们观察到明显的UMI计数延伸到了右侧组织区域之外图1A和图1B。随后我们手动标注了八种主要细胞类型生成了基于细胞分割结果的细胞-格数据图1C。两个预期仅在维管束细胞中特异性表达的标记基因——SoyZH13_07G096600和SoyZH13_15G252400在原始数据中却显示出在整个根系组织中广泛表达图1D。在10X Visium兰花花序数据的三张切片中我们也观察到了标记基因空间表达模式的漂移现象。在其中一张切片中预期仅在原基组织中特异性表达的标记基因PAXXG023160和PAXXG009220展现出了更为广泛的表达图1E和图S1A。同样地与苞片组织相关的标记基因PAXXG361250和PAXXG024270不仅出现在苞片组织内还扩散到了苞片组织的边界之外图1E和图S1A。这种现象在其他两组兰花数据中也一致出现图S1B。类似地在10X Visium人脑前额叶皮质SRT数据LIBD_151507中我们也发现了两个标记基因存在非原位表达的现象图S1C。这些结果表明SRT数据中普遍存在广泛的转录本扩散导致基因丧失其原有的空间特异性从而无法对聚类分析或细胞类型注释产生积极作用。接下来我们评估了“无效基因”对下游分析的影响。我们使用Scanpy[17]将原始的大豆根系数据聚类为18个群集得到的评估指标包括调整兰德指数Adjusted Rand Index, ARI为0.31、准确率Accuracy, ACC为0.61、归一化互信息Normalized Mutual Information, NMI为0.34以及Fowlkes-Mallows指数Fowlkes-Mallows Index, FMI为0.54图1F和表S1。为了评估噪声的影响我们在数据中人为引入了5,000个均匀分布于整个组织内的模拟噪声基因图S1D和表S2。结果显示含有噪声的数据在进行聚类后所有四项评估指标均出现了下降图1F这表明噪声基因会显著削弱聚类分析的效果。进一步地我们从含噪声的数据中筛选出5,000个高变异基因Highly Variable Genes, HVGs发现其中仍有2.96%的模拟噪声基因未被过滤掉图1G和图S2A-C这说明常用的高变异基因筛选方法对于这类扩散基因并不有效。因此在进行下游生物信息学分析之前对SRT数据进行有效的去噪处理显得至关重要。结果2SRT数据的去噪方案​​​SpotGF​为应对复杂的空间噪声问题我们开发了 ​​SpotGF​​ 算法。该算法基于​​最优传输Optimal Transport, OT理论​​能够定量评估基因的扩散模式图2A从而筛选并过滤掉发生扩散的基因有效降低噪声对数据分析的影响。SpotGF 的核心作用在于识别并过滤掉​​“无效基因”​​图2B——这类基因通常在组织区域内呈现广泛且均匀的表达对聚类分析、细胞类型注释以及差异表达基因DEGs鉴定等关键任务并无帮助。与依赖数理统计模型的传统去噪算法不同SpotGF ​​不会对原始测序数据中的“有效基因”UMI计数进行任何修改​​而是专注于剔除那些阻碍下游分析的“无效基因”图2C。​​SpotGF 在实际数据中的工作原理与性能验证​​我们以 ​​10X Visium 人结直肠癌数据​​ 为例选取了两个具有代表性的基因——​​ARID4A​​一种在组织中广泛分布的“无效基因”和 ​​C7​​一种空间聚集分布的“有效基因”——来评估 SpotGF 的实际性能。对于基因 ​​ARID4A​​SpotGF 首先利用每个位点spot的位置信息构建了一个二维空间分布称为​​“源分布”​​source distribution图2D。接着采用 ​​alpha-shape 算法对组织轮廓进行估算。基于源分布及其组织轮廓的特征生成了一个代表​​最大扩散状态下假设表达情况的“目标分布”​​target distribution图2E。随后运用 ​​最优传输OT方法计算源分布与目标分布之间的​​传输成本transportation cost​​进而生成​​OT方案​​图2F。我们对OT方案中每一步的成本进行了量化图2G发现总共经历了800个步骤累计总成本为 ​​1,473.51​​。我们将每个基因在最优OT方案中的传输成本作为该基因的 ​​SpotGF评分​​。同理我们对基因 ​​C7​​ 也进行了相同的分析流程构建源分布图2H、生成对应的目标分布图2I、计算OT方案图2J以及评估每一步的成本图2K。结果显示该基因总共经历了789个步骤但总成本高达 ​​14,696.70​​。值得注意的是基因 ​​ARID4A​​ 的标准化步骤成本大多集中在 ​​0.10.2​​ 区间图2G而基因 ​​C7​​ 的大部分标准化步骤成本则集中在 ​​0.4 或更高​​图2K。这一差异导致 ​​C7 的总成本远高于 ARID4A​​说明 ​​SpotGF评分能够准确反映基因在组织中的表达扩散程度​​​​SpotGF评分越低表明扩散越严重评分越高则意味着基因呈现更强的空间聚集特性​​。此外我们还提供了一个​​基于梯度变化的自动化算法​​用于确定 SpotGF 评分的过滤阈值并生成经过去噪处理的数据。同时用户也可以根据自身SRT数据的特性通过外部参数​​灵活手动调整该阈值​​。​​SpotGF评分准确反映基因扩散程度的验证​​为了验证 SpotGF 评分在衡量基因扩散水平上的准确性我们生成了三组具有不同扩散程度的​​二维空间高斯分布​​图S3A 和 表S3。在排除高斯分布中随机干扰因素后SpotGF 评分与这些空间分布的扩散特征呈现出​​显著线性相关性​​图S4A。相比之下常用于评估基因空间自相关性的 ​​Morans I 指标​​在刻画这些分布的扩散特性方面则效果不佳图S4B。为了消除因不同基因位点数量差异带来的影响我们还生成了 ​​10,000 个模拟基因​​这些基因具有相同的扩散特征但位点数量各异。对于位点数量超过10个通常在质控步骤中被筛除的空间分布SpotGF 评分始终稳定在 ​​3.73.8 的范围内波动​​图S4C 和 表S3。虽然理论上我们期望评分保持恒定但由于高斯分布生成过程本身具有一定的随机性​​0.1 范围内的波动被认为是可接受的​​。结果3SpotGF 能有效过滤SRT数据中的扩散基因​​为了评估 ​​SpotGF​​ 在过滤噪声基因方面的有效性我们将其应用于 ​​Stereo-seq 大豆根系数据​​。在使用前 3,000 个高变异基因HVGs将原始数据、SpotGF 去噪数据以及 Magic 去噪数据分别聚类为 14 个群集后​​SpotGF 去噪数据取得了最高的调整兰德指数ARI 0.40和准确率ACC 0.65​​图3A、图S5A 及表S1。此外在根据每个群集的预测准确率重新分配类别后​​SpotGF 去噪数据成功区分出了四种不同的细胞类型​​图S5B。在探索 78 种不同参数组合时​​SpotGF 去噪数据在四个评估指标上始终优于其他数据集​​图3B、图S5C 及表S4。为了理解原始数据与 SpotGF 去噪数据之间的差异我们生成了每个细胞中总 UMI 计数的热图发现 ​​SpotGF 去噪数据在特征表现上比 Magic 去噪数据更接近原始数据​​图S5D 和图S5E。通过主成分分析PCA得到的前五个主成分PCs的分布模式显示​​SpotGF 去噪数据所衍生的主成分在区分不同细胞类型方面更具效力​​图S6A。这些结果充分证明了 ​​SpotGF 在降低 SRT 数据噪声方面的有效性​​。​​SpotGF 提升聚类精度的原因解析​​为了解释为何 ​​SpotGF 去噪数据能获得更高的聚类精度​​我们分析了原始数据中的前 3,000 个高变异基因HVGs发现其中 ​​61%1,818 个基因应当被剔除而 39%1,182 个基因则应当保留​​图3C。通过 PCA 进行定量评估后发现​​SpotGF 去噪数据中所保留的基因在最优主成分 PC1 中具有更高的贡献率从而增强了 PC1 区分不同细胞类型的能力​​而那些被剔除的基因若被保留其较高的贡献率反而会削弱 PC2、PC3 和 PC4 在细胞区分上的能力。此外随着主成分索引的增加保留基因的贡献率逐渐下降图3D。这些发现揭示了噪声对降维分析的负面影响​​强调了在降维过程中进行基因过滤的必要性​​。此外我们还展示了 ​​SpotGF 评分最高的前三个基因具有显著空间聚集特性​​ 的空间分布情况图3E以及 ​​SpotGF 评分最低的前三个基因呈现全组织范围内的均匀表达​​ 的分布图3F。相比之下​​Magic10 方法未能改善基因表达的空间聚集特性​​图S6B。SpotGF 在模拟噪声与真实场景中的去噪优势​​我们还进一步证明​​在使用前 5,000 个 HVGs 进行聚类时SpotGF 去噪数据所得到的聚类结果最接近真实情况成功识别出五种细胞类型​​图S7A 和图S7B。此外我们向大豆根系数据中引入了 ​​5,000 个在全组织范围内均匀表达的模拟噪声基因​​并分别对原始含噪声数据及经过 SpotGF、Magic、Sprod、SpotClean 和 STAGATE[25] 等方法去噪后的数据进行了 21 个群集的聚类分析。结果显示​​SpotGF 是处理这些噪声基因最优的去噪方法​​图S7C 和图S7D。结果4SpotGF 提高了SRT数据中上调基因鉴定的准确性​​与传统方法通过无监督聚类来识别细胞类型特异性基因不同SRT 数据允许我们直接根据细胞的形态学特征来识别细胞类型然后通过差异表达分析找出每种细胞类型的特征基因。首先我们基于形态学信息生成了拟南芥胚胎的细胞-位点cell-bin数据并根据 FB 染色图像标注了九种细胞类型这些标注同时也作为可靠的真实参考标准图4A 和图4B。我们以此为基础验证了 SpotGF 在存在扩散现象的拟南芥 SRT 数据中识别上调基因的有效性。我们使用 Scanpy分别在九种细胞类型中筛选出了上调程度排名前五的基因。结果发现​​从 SpotGF 去噪数据中识别出的上调基因相比原始数据和 Magic 去噪数据具有更高的细胞类型特异性​​图4C 和图S8A-C。例如在原始数据中识别出的栅栏细胞palisade cells上调基因表现出很高的扩散性图4D 和图4E而从 SpotGF 去噪数据中识别出的上调基因则显示出很高的空间特异性并且在其他八种细胞类型中的表达水平较低图4F 和图4G。此外从 Magic 去噪数据中识别出的上调基因缺乏细胞类型特异性图S9A而从 SpotGF 去噪数据中识别出的上调基因相比原始数据和 Magic 结果都表现出更高的特异性图S9B。这些结果证明了 ​​SpotGF 去噪流程的有效性它不仅成功过滤掉了“无效基因”而且在识别高质量的潜在标记基因方面也表现出色​​。同样地在“子叶-整体维管”细胞类型中的维管细胞中我们发现 ​​从 SpotGF 去噪数据中识别出的上调程度最高的基因展现出了最高的细胞类型特异性​​图S10A。这些上调基因的 UMI 计数表达分布也进一步证实了它们在维管细胞中的特异性图S10B 和图S10C。此外原始数据中识别出的上调程度最高的基因中包含了一些扩散效应非常严重的基因而从 SpotGF 去噪数据中识别出的上调基因则特异地在维管细胞中或紧邻维管细胞的位置表达图S11A-B。类似地从 SpotGF 去噪数据中识别出的上调基因不仅表达量高而且对海绵细胞spongy cells也具有特异性图S12A-C这一点进一步通过空间表达分析得到验证显示出海绵细胞具有明显的聚集特征图S13A-B。总之这些结果一致表明从 SpotGF 去噪数据中识别出的上调基因具有更高的准确性。​结果5SpotGF 有助于提升聚类分析效果与细胞类型推断准确性​​我们进一步利用三个公开的 ​​10X Visium 兰花花序数据集​​ 见表 S5验证了 ​​SpotGF​​ 对细胞聚类准确性和细胞类型推断的影响。在这些数据中我们以 ​​HE 染色图像所衍生的组织位置信息作为真实参考标准​​并将原始数据与经过 ​​SpotGF、Magic、SpotClean、Sprod 和 STAGATE​​ 五种方法去噪后的数据分别聚类为 ​​30 个群集​​。结果显示​​SpotGF 的聚类效果是最优的​​图 S14A。在 ​花区域一​​ 中原始数据的聚类结果仅识别出了整个花蕾群集 13和分生组织群集 21。相比之下​​SpotGF 去噪数据的聚类结果成功识别出了更多区域包括花被片区域群集 22、花柱与唇瓣区域群集 20以及分生组织群集 25​​。而在 ​​花区域二​​ 中原始数据的聚类结果仅识别出了外花被片群集 7和苞片群集 10区域这些结果与真实解剖结构并不一致。相反​​SpotGF 去噪数据的聚类结果成功捕捉到了外花被片组织群集 3和苞片组织群集 11与真实情况高度吻合​​图 5A。通过 ​​UMAP均匀流形近似与投影用于降维可视化图​​ 可以看出​​SpotGF 去噪数据在每个细胞群中识别出了更多的细胞类型并且在苞片组织中呈现出更加清晰的细胞聚集现象​​图 5B、图 5C 和图 S14A。我们进一步采用 ​​成对群集-群集相关性分析​​对 SRT 数据中不同细胞类型的表达谱进行了比较图 5D 和图 5E。结果显示​​SpotGF 方法所得到的细胞类型聚类模式更加紧密且彼此独立尤其对于空间上相邻的细胞类型表现更佳​​。具体来说在层次聚类结果中​​群集 12、15、21 和 28 较为相似它们均对应于兰花组织切片中相邻的尾细胞​​而 ​​群集 0、2、4、11 和 13 则紧密关联代表的是外/内花被片组织中的细胞类型​​图 5F。这些结果说明​​SpotGF 通过过滤掉噪声基因可以准确地识别出细胞亚型​​。此外在使用与原始数据相同的 Scanpy 参数时​​SpotGF 去噪数据比原始数据更接近真实解剖结构尤其是在第二张切片的外花被片组织中表现更为明显​​图 S14B。同样地​​SpotGF 在第三张切片的内花被片和蕊喙组织rostellum tissues的聚类分析中也表现更优​​图 S14C。总体而言SpotGF 在多个数据集上始终能产生准确的聚类结果有效提升了细胞类型识别的准确性。​​结果6​​SpotGF 提高了在人类结直肠癌中识别肿瘤细胞的准确性​​空间分辨转录组学SRT技术为将病理图像与基因表达数据相结合提供了独特的机会有助于提升肿瘤诊断水平并实现精准治疗。我们在 ​​人类结直肠癌数据集图 6A上测试了 ​​SpotGF​​并将其与其他四种去噪算法进行了对比。我们使用 ​​SpaGCN​​ 对结直肠癌数据集进行了聚类并对 ​​SpotGF 与其他方法采用了相同的参数设置​​。在二分类任务即从组织中识别肿瘤细胞中​​SpotGF 去噪数据ARI 0.37ACC 0.80的准确率是最高的​​图 6B 和表 S6。此外通过 ​​桑基图Sankey diagram​​ 可以看出​​SpotGF 去噪数据与真实标签之间在肿瘤细胞上的数据流误差最小​​图 S15A。为了更好地区分肿瘤细胞与正常细胞我们探索了 ​​12 组精心选择的参数配置​​这些配置在保证高预测准确率的同时避免过拟合。在所有评估指标上​​SpotGF 的表现均优于原始数据并且在大多数情况下优于其他四种方法​​图 6C、图 S15B 和图 S15C。此外我们基于网格采样方法在组织中合成了 ​​3,000 个均匀分布的噪声基因​​图 S16A并发现 ​​SpotGF 去噪数据取得了最高的 ARI 值0.294和 ACC 值0.771​​图 S16B。在相同条件下我们分别使用 ​​Scanpy、SpaGCN 和 BayesSpace对这五个去噪数据集进行了聚类结果一致表明 ​​SpotGF 作为去噪预处理算法具有更优的表现​​图 S17A–C。综合来看这些结果证明 ​​SpotGF 能够提高在人类结直肠癌中识别肿瘤细胞的准确性​​。另外我们还为六个数据集生成了每个细胞中 UMI 计数的热图结果显示 ​​SpotGF 去噪数据的分布与原始数据非常接近而其他四种去噪方法则改变了原始数据的表达分布特征​​图 S18A。这些结果进一步支持了 ​​SpotGF 能够特异性地过滤掉具有广泛表达模式的基因​​。​SpotGF 提升了肿瘤相关上调基因的比例与特异性​​此外在 ​​SpotGF 去噪数据中肿瘤细胞内上调的肿瘤相关基因比例9.73%高于原始数据3.60%​​图 S19A、图 S19B 和表 S7。我们筛选出了 ​​8 个已报道的在肿瘤细胞中上调的基因​​ [8]发现这些基因在 ​​SpotGF 去噪数据中具有更高的倍数变化fold change和更低的 P 值​​图 6D。类似的结果也出现在 ​​7 个正常细胞中的上调基因​​ 以及 ​​CellMarker 数据库​​ 中的 ​​4 个肿瘤细胞标记基因​​ 上图 S19C 和图 S19D。更重要的是​​SpotGF 还能够识别出原始数据中未能检测到的额外肿瘤相关基因​​。例如在 ​​仅通过 SpotGF 去噪数据识别出的 99 个上调基因中有 37 个基因的表达与结直肠癌患者较差的生存率呈正相关​​根据 TCGA 数据库中的 COAD 数据集 P 值 0.05图 6E。在这 37 个基因中有 ​​16 个基因是已知的能够促进结直肠癌细胞增殖、迁移和侵袭过程的基因​​表 S8。此外​​剩余的 21 个基因占 57%为首次被发现的新基因​​。在这 37 个基因中新增的 ​​HLA-DQA1 基因具有最低的 P 值和风险比HR提示其可能在肿瘤免疫应答中发挥作用​​图 6F。与之形成对比的是​​仅在原始数据中识别出的 16 个上调基因全部被判定为噪声基因并被 SpotGF 成功过滤掉​​图 6E。这些发现表明​​SpotGF 不仅提高了上调基因的特异性增强了识别肿瘤细胞的准确性还促进了肿瘤细胞中潜在标记基因的发现​​。讨论​​空间分辨转录组学SRT数据中的噪声问题与 SpotGF 的解决方案​​由于必要的实验操作步骤以及液体实验环境的影响SRT 数据中捕获的部分基因并不能准确反映其原位in-situ表达情况。因此这些基因失去了其原本的空间特异性成为不可忽视的噪声图 1D–F 和图 2A。这种复杂的空间噪声会对下游分析造成显著影响导致较大的偏差和错误的结论图 1F 以及图 S2A–C。目前的一些解决方案如 ​​SpotClean​​ 和 ​​Sprod主要通过修改每个位点spot内的 UMI 计数来实现 SRT 数据的去噪。然而这些方法在拟合噪声时受到其所选统计模型本身局限性的约束容易导致额外的假阳性结果并使那些具有空间特异性的低表达基因被掩盖。SpotGF通过过滤“无效基因”实现 SRT 数据去噪​​为了克服这一挑战我们开发了 ​​SpotGF​​通过过滤“无效基因”来对 SRT 数据进行去噪。SpotGF 通过构建​​源分布source distribution和目标分布target distribution​​并利用迭代过程计算​​最优传输方案optimal scheme​​图 2C。在评估每个基因的扩散程度时SpotGF 通过计算该基因在最优方案中的​​传输成本transportation cost​​进而筛选出那些​​传统高变异基因HVGs计算方法如方差计算无法区分的“无效基因”​​图 1G。此外我们已经证实与直接评估空间自相关性如 Morans I 值 相比​​SpotGF 能更有效地表征基因的扩散程度​​。SpotGF 的一大优势在于即使每个基因的表达位点数量不同它依然能够准确评估单个基因的扩散系数图 S3A–C。与 ​​Magic、SpotClean、Sprod 和 STAGATE​​ 相比SpotGF 在 ​​兰花数据图 S20A–L和结直肠癌数据集图 S21A–K​​ 上展现出了更优的运行时间和内存性能。这些广泛的验证结果证明了 ​​SpotGF 在 SRT 数据去噪方面具有更优越的性能​​。​​SpotGF 作为识别空间变异基因SVGs的强大工具​​此外​​SpotGF 已被证明是一种识别空间变异基因Spatially Variable Genes, SVGs的强有力工具​​。我们观察到​​SpotGF 评分较高的基因往往具有更高的空间聚集性表明其有潜力作为 SVGs 被应用​​。尽管我们的研究在刻画基因扩散程度上取得了进展但我们也认识到​​SpotGF 评分的自动阈值选择方法仍存在一定局限性​​。将某个基因判定为“无效基因”需要仔细综合考量组织特异性信息、扩散程度以及 SRT 数据中固有的生物学信息。我们目前的自动化方案倾向于过滤掉大量无效基因因此我们建议在后续的聚类分析中使用所有保留下来的基因。同时我们还设计了额外的接口支持用户根据自身数据特点自定义阈值。我们将在未来的研究中继续深入探索这一复杂问题。​​SpotGF提升 SRT 数据质量助力精准生物学解读​​尽管空间分辨转录组学SRT数据在解决生物学问题方面已获得广泛应用并展现出巨大潜力但该领域仍需更加关注 SRT 数据的质量问题。​​SpotGF 去噪算法是专门为 SRT 数据量身定制的是 SRT 数据处理流程中至关重要的第一步​​。通过有效降低 SRT 数据中的噪声​​SpotGF 为下游分析奠定了坚实基础有助于更准确地解读潜在的生物学现象​​。

更多文章