在多细胞系统中,无法以可扩展且精确的方式测量发育增强子的活性,是基因组学中的一个瓶颈。在此,我们开发了一种双RNA盒式系统,将多重单细胞报告基因检测中固有的检测与定量任务解耦,从而能够在超过10,000倍的活性范围内准确测量报告基因表达,其精度接近由泊松计数噪声所设定的极限。结合RNA条形码环化,这些
发育增强子指导基因表达程序的展开,并表现出显著的细胞类型特异性和时空特异性。这种严格调控构成了形态与功能从单细胞合子稳健涌现的基础。靶基因的精细调控变化,即使仅由单个增强子中的单核苷酸改变所引起,也既可能导致疾病(
在哺乳动物系统中,大多数对顺式调控元件(CRE)的高通量功能研究都是在静态环境中进行的,通常采用癌细胞系(
迄今为止,多细胞系统中关于增强子的研究主要通过转基因报告基因进行,并通过
近来的两项创新有望提高哺乳动物发育增强子生物学研究的通量。
为解决这一问题,我们开发了一种双RNA报告基因盒式系统,将检测与定量任务分离开来(
我们推测,可以通过连接于单个报告基因上的两种分别带有条形码的RNA,将检测与定量解耦(
双RNA报告基因需要连续产生两种彼此分离的RNA,这可能会干扰CRE功能。鉴于Pol II启动子可以充当增强子(
为减轻短异位Pol III RNA的不稳定性(
我们首先确认,scQers能够以约2%的缺失率在单细胞中报告转录活性,并在较大的动态范围内表现出很高的准确性(<10
oBC在每个细胞基础上都能被稳健捕获。特别是,oBC唯一分子标识符(UMI)计数的分布呈现双峰性(
对单细胞与总体定量所得报告基因表达的比较证实了scQers的准确性。在利用oBC检测到报告基因整合之后,同一oBC-启动子-mBC三联体在每个细胞中发生多重整合的概率低于5%(
如果不进行过滤,伪性读段计数会改变报告基因定量。实际上,文库制备需要若干扩增步骤,这些步骤可能产生“嵌合”扩增子,并导致虚假的细胞—条形码连接。在饱和文库中,这类分子产物的特征是低于约10 UMI/细胞的计数频率升高(例如,oBC:
除了评估oBC缺失率之外,我们的细胞克隆池还使我们能够量化mBC捕获的变异性。多次出现的克隆为整合于固定基因组位置上的同一组报告基因提供了内部重复测量,从而控制了随机整合盒式系统的一个重要变异来源(
克隆分析还揭示了由位置效应驱动的报告基因表达变异(假设不同克隆中的报告基因整合于不同的基因组位置)。我们观察到启动子和细胞系特异性的效应,其中 EEF1A1p 和 UBCp 表现出极低的克隆间变异(各克隆间四分位距,UBCp:所有细胞系中均 <2.4;EEF1A1p:在 K562 和 HEK293T 中 <1.5,在 HepG2 中为 4.1)。
相比之下,启动子 Pgk1p 不仅表现出细胞系间的表达差异(例如,HEK293T 中标准化 mBC UMI 的中位数为 12,而 K562 中为 76),还表现出更高的克隆间变异性(HEK293T 中 IQR 为 4.8,K562 中为 5.9,HepG2 中为 7.2)。
将 mBC UMI 的变异性分解为位置效应(通过克隆归属评估)与其余生物学和技术噪声之和后表明,测量精度受限于基因组背景,这既凸显了我们捕获过程的低变异性,也强调了对多个独立整合位点取平均的重要性(可归因于克隆身份的 mBC UMI 方差比例:EEF1Ap=0.60,Pgk1p=0.41,UBCp=0.57,
在细胞系中经过广泛优化后,我们尝试将 scQers 应用于发现
mEBs 可重复地包含多种细胞类型,并能够被明确映射到
scQers 在 mEBs 中表现出高性能。首先,oBC 被稳健捕获(文库复杂度中位数 = 836 UMI/oBC/细胞),且 oBC UMI/细胞呈双峰分布(
scQer 生成了高对比度的 CRE 活性单细胞图谱(
活性 CRE 在 mEB 细胞类型间表现出不同的表达模式。通过置换检验将活性 CRE 分类为细胞类型特异性或非特异性(
我们的检测方法依赖于高 MOI 条件下报告基因的随机整合以实现可扩展的多重检测,这引发了一个担忧,即基因组位置效应可能主导所观测到的信号(
在鉴定出的 10 个自主性细胞类型特异性增强子中,有 2 个属于核心
由发育性 CRE 驱动的报告基因表达,重现了其邻近推定关联基因的主要表达模式(
在所测试的全部 103 个远端顶壁内胚层元件中,8 个活性细胞类型特异性增强子富集了若干特征。活性 CRE 表现出更高的染色质可及性(可及性提高 1.8 倍,差异可及性提高 2.2 倍,两者均为 p<0.03,经 B-H 校正的单侧 t 检验),但在进化保守性方面未显示差异(平均 phyloP 评分(
总体而言,scQers 实现了对 21 天小鼠 EBs 多种细胞类型中组成型启动子样调控元件和谱系特异性自主活性调控元件的可扩展、高灵敏度表征,且增强子活性谱与其推定关联基因的表达相一致。
增强子被认为能够协调后生动物发育过程的精确展开,使物种的形态与功能得以从基因组蓝图中产生。然而,至少迄今为止,我们大规模研究发育增强子的能力仍受到限制,尤其是在哺乳动物系统中。一方面,
我们的筛选中相对较低的增强子命中率表明,在测量之前先进行基因组整合并随后诱导分化,为那些具有自主能力、能够重构染色质化景观的元件提供了强有力的筛选。事实上,如应用于其他模型系统的染色体外检测可以报告更高比例的活性元件(
单细胞检测相较于在多种细胞系中进行多次群体检测有何优势?发育系统呈现出一种连续的状态谱系,这与不连续的终末状态形成对比。沿着发育流形构建增强子活性图谱,有望揭示环境中细微变化的影响
本研究获得美国国家人类基因组研究所(NHGRI)研究基金资助(UM1HG011966授予JS,R01HG010632授予JS和CT)。JBL为达蒙·鲁尼恩癌症研究基金会研究员(DRG-2435-21)。SGR获得NHGRI资助(F31HG011576)。DC获得美国国家心肺血液研究所资助(T32HL007828)以及NHGRI资助(F32HG011817)。JS为霍华德·休斯医学研究所研究员。
JBL和SGR提出了双报告系统的概念。JBL构建了scQer文库,设计并开展了在人类细胞系中的实验以及Pol III MPRA实验。SGR和JBL设计并开展了mEB中的实验。JBL分析数据、制作图表,并在JS修改及SGR和DC提出意见的基础上撰写了手稿。SGR生成了mEB中的scATAC数据。SGR和SD构建了mESC细胞系,建立了mEB实验方案,并完成了mEB的早期图谱分析。BM提供了用于MPRA盒克隆的构建体和实验方案。DC提出了分析建议,并提供了用于子组装的计算机脚本。
TL对CRE进行了生物信息学分析。CCS提供了文库子组装的初始实验方案。CL提供了FACS方面的协助。CT和JS监督了本研究。
J.S.是Cajal Neuroscience、Guardant Health、Maze Therapeutics、Camp4 Therapeutics、Phase Genomics、Adaptive Biotechnologies、Scale Biosciences、Sixth Street Capital和Pacific Biosciences的科学顾问委员会成员、顾问和/或联合创始人。其余作者声明不存在竞争性利益。
本研究产生的原始测序数据和处理后的文件已提交至GEO,登录号为GSE217690。用于分析的代码和脚本已存储于github(
B 不同特征在分类任务(特异性 vs. 非特异性/非活性)中的受试者工作特征(ROC)曲线。Gata4 转录因子结合位点(TFBS)的密度、对应的 ATAC 可及性以及 ATAC 信号的倍数变化,均具有良好的预测价值,可用于区分功能元件(auROC > 0.7)。逻辑回归分类器(
我们感谢 N. Ahituv、M. Kircher、R. Ziffra、G. Gordon、A. Ellis、J. Tome 以及整个 Shendure 实验室的讨论;感谢基因调控分组的参与者(F. Chardon、W. Chen、X. Li、T. McDiarmid)提出的批评与建议;感谢 T. McDiarmid 指出未形成复合物的 sgRNA 具有很高的不稳定性。
质粒 pAV-U6+27-Tornado-Broccoli 由 S. Jaffrey 慷慨赠予(Addgene 质粒编号:124360)。
📄 原文链接:https://www.biorxiv.org/content/10.1101/2022.12.10.519236
🏷️ 发育增强子 单细胞转录组 报告基因系统 顺式调控元件 RNA条形码