基于正则化非负矩阵分解(FAST)的空间转录组数据灵活解卷积新方法

《BMC Bioinformatics》:Flexible analysis of spatial transcriptomics data (FAST): a deconvolution approach

【字体: 时间:2025年02月10日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本期推荐:针对空间转录组数据低分辨率限制,美国亚利桑那大学团队开发了FAST算法,通过整合基因表达、空间位置和组织学信息,构建正则化NMF模型实现无参考解卷积。相比STdeconvolve等现有方法,FAST在模拟数据中Pearson相关系数提升0.11,RMSE降低0.03,成功应用于小鼠嗅球分层和乳腺癌分型研究,为复杂组织解析提供新工具。

  

空间转录组技术正在革命性地改变我们对组织结构的认知,但低分辨率平台如10X Visium产生的" bulk数据"成为解析细胞组成的瓶颈。现有解卷积方法要么依赖难以获取的单细胞参考数据,要么像STdeconvolve这样忽略空间信息。当组织呈现特殊结构(如血管的管状分布)时,仅凭物理距离难以准确建模细胞分布,而组织学图像蕴含的生物学信息尚未被充分挖掘。

亚利桑那大学数学与流行病学交叉团队开发的FAST算法,创新性地将空间坐标与组织学灰度值通过参数β加权融合,构建图拉普拉斯矩阵作为正则项嵌入NMF框架。其双惩罚项设计独具匠心:Tr(HTLH)项强制空间相邻且组织学相似的斑点具有相近细胞组成,||HJ-JM||F2项则确保细胞比例总和为1。这种数学上的精巧设计在模拟小鼠嗅球数据中展现出0.93的Pearson相关系数,较现有最优方法提升11%。算法采用交替更新策略,Wik更新保持经典NMF形式,而Hjk更新则巧妙融合了空间约束。

关键技术包括:1) 基于5×5邻域的灰度中值提取组织学特征;2) 自适应参数β=max(Δx2+Δy2)/max(Δz2)平衡空间与组织学权重;3) 保留每个斑点前5邻接的稀疏化处理;4) 通过Frobenius范数优化实现矩阵分解。实验采用18,215基因的小鼠神经系统单细胞数据模拟空间转录组,Wilcoxon检验筛选5,160差异基因作为输入。

在分层明确的嗅球组织中,FAST准确识别出嗅神经层(ONL)特异性表达Kctd12基因的CT1细胞,其空间分布与解剖注释完全吻合。更令人振奋的是,在人类乳腺癌数据中,算法不仅区分出导管原位癌(DCIS)和浸润性癌(IDC)区域,还发现ECM受体互作通路富集的CT5是两类癌症的共同特征,而PI3K-Akt通路在IDC特异性CT4中显著激活。10X Visium小鼠脑数据测试进一步证明,CT2/CT3分别对应下丘脑和大脑皮层,与Allen脑图谱高度一致。

这项发表于《BMC Bioinformatics》的研究开创性地实现了三个突破:首先,通过β参数动态平衡空间与组织学贡献,解决了传统距离度量在复杂组织中的失效问题;其次,双正则化设计既保持NMF的数学简洁性,又引入生物学合理性约束;最后,开创的无参考策略使缺乏单细胞数据的实验室也能获得可靠解卷积结果。未来通过深度学习提取组织学纹理特征、替换KL散度优化等改进,或将进一步提升算法性能。该工具已封装为R包开源,为肿瘤微环境、神经环路等研究提供了新的分析维度。

相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号