生物信息学
公共基因表达数据库具有巨大的价值,但这种价值受到由多种实验技术生成的数据集之间缺乏兼容性的限制。测量尺度、探针化学性质以及信号分布的差异,会在不同平台和实验室之间造成系统性偏差。尽管大规模整合分析本可以获得强大的统计效能并提高结果的可重复性,但这些不一致性几乎使此类研究无法开展。我们提出了PXN,这是一种概率机器学习框架,能够在多种基因表达技术之间捕捉生物学信号的统一表征。经过训练后,PXN可以在多个平台之间无缝转换数据,在消除技术特异性偏倚的同时保留具有信息量的生物学变异。
在基准测试研究中,PXN在跨平台准确性方面持续优于现有归一化方法,并显著增强差异表达分析的统计效能。重要的是,我们表明PXN足够强大,甚至能够弥合最具挑战性的技术鸿沟——即微阵列与RNA测序之间的差异。这一能力为整合历史微阵列数据与现代RNA测序研究提供了一条可扩展的路径。通过实现异质数据集的直接比较与整合,PXN释放了公共数据库在未来生物学发现和治疗创新中的全部潜力。
感谢您有兴趣帮助传播有关bioRxiv的信息。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.11.724309v1?rss=1
🏷️ 基因表达整合 跨平台归一化 概率机器学习 微阵列 RNA测序 差异表达分析