生物信息学
尽管多模态测序技术正在迅速发展,但大多数单细胞和空间数据集仍然只测量单一模态。针对分别测序的单细胞 RNA 测序(scRNA-seq)和 ATAC 测序(scATAC-seq)数据的整合计算方法,通常依赖这样一个假设:基因表达与邻近调控区域的染色质可及性相关。然而,这些相关性的强度和可靠性在不同基因之间存在显著差异,而纳入低置信度关联可能会削弱整合的准确性。
在此,我们引入 CLIC(Cross-modality Link Confidence)评分,这是一种定量衡量基因表达与邻近染色质可及性之间经验一致性的指标,基于 ENCODE 项目中多样化的单细胞 multiome 数据集推导而来。CLIC 评分为跨模态的基因-峰关联提供了先验置信度估计。在此基础上,我们提出一种混合特征选择策略,将高变基因与高 CLIC 基因取交集,从而生成更符合跨模态整合方法假设的特征集合。
在多种公开可用的单细胞和空间数据集,以及多个最先进的整合框架中,我们的方法均持续提升了基因表达与染色质可及性数据的整合效果,同时增强了稳健性和生物学可解释性。
注意:要求提供您的电子邮箱地址仅用于将您识别为本文的发送者。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.07.723400v1?rss=1
🏷️ 单细胞多组学 scRNA-seq scATAC-seq 跨模态整合 基因-峰关联 特征选择