当前位置:首页 > 科技资讯 > 正文

scSiameseClu:解析单细胞RNA-seq数据的新型孪生聚类框架

来自中国科学院、东北农业大学、澳门大学与吉林大学的研究团队联手推出了一种名为scSiameseClu的新型孪生聚类框架,这一框架能有效缓解表征坍塌问题,实现更清晰的细胞群体分类,为scRNA-seq数据的分析提供了强大工具。

在生命科学的研究中,过去的研究多聚焦于“群体”水平。通过传统的普通转录组测序(Bulk RNA-Seq),我们可以得到群体细胞的平均基因表达,但这往往掩盖了稀有细胞的特征。如今,研究者们越来越希望倾听“单个”细胞的声音。

单细胞RNA测序(scRNA-seq)正是一种革命性的技术,它能在细胞群体的“喧嚣”中捕捉单个细胞的全面遗传信息,揭示隐藏的复杂特征。为了理解这些复杂的信息,需要进行一个关键环节——细胞聚类,根据基因表达的相似性将细胞归类。然而,这一过程充满挑战。

scRNA-seq数据具有高噪声、高稀疏性和高维度的特点,即使是目前最有效的图神经网络(GNNs)方法,也面临着“图构建不足”和“表征坍塌”的问题。如下图所示,无论是基于深度学习的scNAME,还是基于图神经网络的scGNN,其逐渐趋同的表征结果都意味着存在不同程度的表征坍塌。换句话说,依然缺少一种真正能够保留细胞差异性的聚类工具。

scSiameseClu:解析单细胞RNA-seq数据的新型孪生聚类框架 scRNA-seq 孪生聚类 表征坍塌 细胞聚类 第1张

为了破解这一困境,来自中国科学院、东北农业大学、澳门大学与吉林大学的研究团队联手推出了一种名为scSiameseClu的新型孪生聚类框架。它旨在捕捉并细化复杂的细胞间信息,同时在基因和细胞特征层面学习具有判别性和鲁棒性的表征。该框架集成了三个关键模块:双重增强、孪生融合、最优传输聚类。通过这种设计,scSiameseClu能够有效缓解表征坍塌问题,实现更清晰的细胞群体分类。

相关研究以“scSiameseClu: A Siamese Clustering Framework for Interpreting single-cell RNA Sequencing Data”为题入选IJCAI 2025,预印本已发表于arXiv。

研究亮点:

* scSiameseClu能从基因表达和细胞图中捕获复杂信息,以学习具有判别性和稳健性的细胞嵌入,改善聚类结果和下游任务;

* 引入了关键模块,构建了“增强-融合-聚类”的完整框架;

* scSiameseClu在聚类及其他生物任务中的表现优于SOTA方法。

scSiameseClu:解析单细胞RNA-seq数据的新型孪生聚类框架 scRNA-seq 孪生聚类 表征坍塌 细胞聚类 第2张

覆盖多组织、多物种的7大真实数据集

为了全面评估scSiameseClu的性能,研究团队在7个真实的scRNA-seq数据集上进行了实验。过滤掉了少于3个细胞表达的基因,将其进行归一化、对数转换(logTPM),并根据预定义的平均值和离散度阈值选择高变异基因。这些预处理后的数据集由3个小鼠样本和4个人类样本组成,涵盖多种细胞类型(如:视网膜、肺、肝、肾、胰腺等),具有不同的基因数、细胞类型数和稀疏率。以下图片为所使用的数据集概况。

scSiameseClu:解析单细胞RNA-seq数据的新型孪生聚类框架 scRNA-seq 孪生聚类 表征坍塌 细胞聚类 第3张

孪生聚类框架的3大模块

研究团队所提出的scSiameseClu是一种基于增强图自编码器的孪生聚类框架,该框架包含3个模块:(i) 双重增强模块(Dual Augmentation Module);(ii) 孪生融合模块(Siamese Fusion Module);(iii) 用于自监督学习的最佳传输聚类策略(Optimal Transport Clustering)。

scSiameseClu:解析单细胞RNA-seq数据的新型孪生聚类框架 scRNA-seq 孪生聚类 表征坍塌 细胞聚类 第4张

双重增强模块

本次研究中双重增强模块为“基因表达增强+细胞图增强”。为提高模型对噪声的鲁棒性以及在不同数据集上的泛化能力,研究团队通过添加高斯噪声模拟基因表达的自然波动,实现基因层面的鲁棒性增强;通过采用边扰动和图扩散策略,分别生成增强的邻接矩阵,从不同但互补的角度处理细胞图,使模型能够捕捉细胞间多样的相互作用。

孪生融合模块

孪生融合模块(SFM)是scSiameseClu最核心的创新设计,采用整合“互相关细化”和“自适应信息融合”的策略。具体而言,前者通过构建自编码器,分别处理增强后的基因表达矩阵和细胞图矩阵,在潜在空间中进行对齐与融合;后者通过嵌入聚合、自相关学习和动态重组来整合细胞关系,有效滤除冗余信息并保留潜在空间中的判别性特征,从而学习到鲁棒且有意义的表征。

最优传输聚类

研究团队首先利用学生t分布(Student’s t-distribution)计算细胞与聚类中心的相似度,再通过Sinkhorn算法对预测分布进行对齐与修正,从而保证了聚类分布的平衡性并避免了坍塌问题。

scRNA-seq框架卓越性能的多重验证

scRNA-seq框架在聚类中所表现的卓越性能是经过大量实验验证的结果。研究团队选取涉及传统聚类方法、基于深度神经网络的方法、基于图神经网络的聚类方法共计9个目前最先进的基准模型作为对比。利用上述提到的7个真实数据集采用3种广泛认可的聚类指标:ACC(准确率)、NMI(归一化互信息)以及ARI(调整兰德指数)进行评估。

结果显示scSiameseClu在这3项指标上均取得了明显优势不仅整体分数更高而且在不同数据集间表现稳定。如在人类肝细胞数据集的可视化对比上可以清晰地看出相较于其他基准模型scSiameseClu能够生成具有清晰边界、分离良好的簇且都可以有效区分不同的细胞类型。

scSiameseClu:解析单细胞RNA-seq数据的新型孪生聚类框架 scRNA-seq 孪生聚类 表征坍塌 细胞聚类 第5张

迈向计算机生物学蓬勃发展的新时代

如果从计算机生物学的视角来看scSiameseClu借助计算机科学中的双重增强、孪生融合、最优传输聚类等方法有效破解了生物学中长期存在的细胞异质性解析难题。可以说它仅是一种新型的聚类工具也是计算方法和生命科学深度融合领域的众多新兴尝试之一。