原肠胚形成是早期胚胎建立身体蓝图并为器官发生做好准备的过程。由于原肠胚形成难以研究,
原肠胚形成是后生动物发育中的关键过程,在这一过程中,着床后的囊胚转变为由三个胚层构成的结构,即原肠胚
包括我们在内的多个研究团队已对原肠样体的时间序列进行单细胞RNA测序,以表征胚胎干细胞在分化为胚层和细胞类型过程中转录组动态变化
在此,我们采用高通量定量质谱,对原肠样体分化四个关键阶段的蛋白质及磷酸化位点进行了定量。基于这些数据,我们描绘了数百种已知蛋白复合物的动态变化,同时还鉴定出其他时间变化谱与特定复合物相关的蛋白,提示它们在早期发育过程中存在协同关系。结合实验匹配的RNA测序数据,我们识别出原肠胚形成期间转录组与蛋白质组之间在特定通路层面的相符与不相符模式。进一步将研究扩展至磷酸化蛋白后,我们绘制了数千个磷酸化位点的动态变化图谱,从而预测原肠样体发育过程中阶段特异性的激酶活性。
我们观察到,MAPKAPK2通过调控多能性退出,在原肠样体发育中发挥关键作用。最后,我们利用与Commander复合物相关基因的时间性共调控蛋白网络,确立了DPYSL4和PRKACB在原肠样体发育中的关键作用。总体而言,通过聚焦早期原肠胚形成模型中的蛋白质组和磷酸化蛋白质组,这些数据和分析为弥合早期哺乳动物发育中转录组视角与细胞视角之间的差距奠定了基础。相关数据已连同定制浏览器一并免费开放,网址为:
我们描绘了人类RA-原肠样体中RNA、蛋白质和磷酸化位点水平的动态变化
为评估数据质量,我们计算了各样本类型生物学重复之间的两两相关性,并证实每种数据类型均具有高度可重复性(RNA:
在所有阶段的全部重复样本中,我们检测并定量了7,352种人蛋白和8,699种小鼠蛋白(
为鉴定具有相似时间动态的一组蛋白,我们通过直系同源关系合并了人和小鼠蛋白质组数据集,并对其进行层次聚类(
为识别可能构成原肠样体发育中特定转变基础的蛋白丰度变化,我们在每个物种中对相邻时间点进行了差异表达分析,鉴定出数千个差异表达蛋白(DEPs)(
(a) 比较样本间所选蛋白对丰度的散点图。
为确定驱动我们整体蛋白质组学观察结果的细胞类型,我们将蛋白质组学数据集与现有的描绘原肠样体发育的单细胞RNA测序数据进行了比较
我们还比较了H9与RUES2-GLR人类始发态胚胎干细胞,并检测到3,047个差异表达蛋白(DEPs)
因此,与处于相同预备态的 H9 对照组以及来源于 RUES2-GLR 的早期 RA-gastruloids 相比,预备态 RUES2-GLR ESCs 的蛋白质组在与线粒体相关的过程中表现出高度富集(
当将此类分析扩展至小鼠数据时,我们观察到相似数量的差异表达蛋白(DEPs)(
此处定量的大多数蛋白质既无法映射到已知蛋白质复合体,也未被赋予早期人类发育过程中明确的特定生物学功能。鉴于我们的观察表明,被归入分子模块的蛋白质(例如氧化磷酸化)在 gastruloid 发育过程中呈现协调一致的调控(
为将共调控分析应用于我们的数据,我们计算了相关性(r
我们聚焦于在 1% 假发现率(FDR)下,要么表现出强正相关(R >= 0.95),要么表现出强负相关(R <= -0.95)的蛋白质对(
在修剪后的网络中,正相关边的 37.8% 可由至少一种已建立的注释加以解释;相比之下,在涉及这 5,227 个蛋白质的所有可能边中,仅有 26.7% 在这些数据库中具有注释,因此前者富集了 1.4 倍(
鉴于正相关边中有相对较高比例对应于蛋白质-蛋白质相互作用和大分子复合体,我们利用未经修剪的网络,将正相关蛋白质对映射到特定发育基因或蛋白质复合体(
为了系统评估该相关性网络是否能够恢复已知蛋白质复合体,我们聚焦于 CORUM 中的 1,357 个复合体
除恢复先前已有支持的蛋白质-蛋白质关系(过滤后网络中的 37.8%,
基于这一框架,我们鉴定出 1,385 个与 218 个 ComplexPortal 复合体相关联的协同蛋白
我们推测,由多个复合体共享的协同蛋白之间的重叠可能有助于揭示这些蛋白的功能角色。为量化这种共享程度,我们计算了复合体对之间的 Jaccard 相似系数——对于任意一对复合体,若其协同蛋白完全重叠,则 Jaccard 相似系数为 1(
既往跨越多种生物学背景的研究报道了 mRNA 水平与蛋白质水平之间不同程度的一致性
随后我们计算了单个基因的 RNA-蛋白质相关性。在两物种所有采样时间点均同时具有蛋白质和 RNA 数据的 6,010 个基因中,Pearson 相关系数整体偏向正相关,这与既往研究一致
另一方面,在 GO 生物过程层面以及共同亚细胞定位层面(Human Protein Atlas
接下来,我们试图更深入理解 RNA 与蛋白质丰度之间的关系如何随发育阶段而变化。在每个阶段纳入所有基因进行分析后,我们发现早期小鼠 gastruloids 的 RNA-蛋白质相关性显著低于所有其他人类或小鼠阶段(r
总体而言,我们观察到在小鼠 gastruloid 发育过程中存在不同模式的失一致性(
最后,我们试图评估发育相关转录因子(TFs)的蛋白质水平是否可用于判定潜在靶标(
发育程序主要由核心信号通路驱动,而这些通路通过磷酸化受到动态调控
基于磷酸化信号传导在关键发育性转录程序中的作用,我们对既往研究整理的多能性标志物 POU5F1、SOX2 和 NANOG 靶标上的磷酸化位点进行了绘制
在人和小鼠中保守的磷酸化位点,包括 DYPSL2 和 DNMT3B 上的位点,在 gastruloid 分化过程中表现出高度一致的磷酸化谱。神经干细胞调控因子 DPYSL2 T514/Dpysl2 T514 磷酸化位点的丰度在人和小鼠 gastruloid 之间保持一致。值得注意的是,DNMT3B 中围绕 S100/S116 位点的 N 端区域在结构研究中一直难以解析
将疾病相关基因映射到已知蛋白质复合体上,有助于揭示其在发育障碍中的分子作用。有 461 个发育疾病相关基因,其蛋白产物参与了 217 个 ComplexPortal 复合体和 631 个 CORUM 复合体(
功能蛋白质组学可作为一种强有力的方法,用于为疾病相关基因提出分子功能假设,并进一步推动我们对其异常功能如何在特定发育背景下导致特定疾病表型的机制性理解
Leigh 综合征是一种早发性线粒体神经代谢性疾病,影响中枢神经系统。其症状包括共济失调、发育迟缓和肌张力减退
Ritscher-Schinzel 综合征是一种发育障碍,其特征是异常的颅面部、小脑和心血管畸形,经典上与 WASHC5 和 CCDC22 相关,但近来也有研究提示 VPS35L 和 DPYSL5 也与其有关
虽然我们检测到了与 Ritscher-Schinzel 综合征相关的 4 个基因中的 2 个,但我们还观察到 Commander 共调控网络中 31 个蛋白中的 7 个具有 GenCC 疾病关联。我们假设 Commander 网络中协同作用的疾病相关蛋白会共享相似的表型特征。为了测量 Commander 网络中疾病相关蛋白之间表型重叠的程度,我们利用了 Monarch 基因—表型关系数据库
在本研究中,我们利用干细胞来源的人和小鼠 gastruloid 具有易操作性和可扩展性的特点,系统分析了其发育四个关键阶段中的时间性变化。尽管……的数量
我们在小鼠和人类胃胚样体中构建了整合的蛋白质组、转录组和磷酸化蛋白质组数据集,以界定这一早期发育模型的分子动态。在代谢层面,我们观察到,在人类胃胚样体发育过程中,与晚期胃胚样体相比,TCA 循环中的蛋白质在预激状态 ESC 中倾向于上调,而晚期胃胚样体则表现出更高水平的糖酵解蛋白。这些结果提示,细胞组成在代谢能量产生方面发生了重新聚焦,以支持更大尺度的有机体变化,这与既往研究所表明的着床后胚胎向糖酵解代谢转换的结论大体一致。
我们的数据使我们能够比较人类与小鼠胃胚样体发育过程中蛋白表达的时间动态及其保守性(或缺乏保守性)。尽管两种物种的晚期胃胚样体之间仅表现出适度相关性,但关键发育基因往往呈现保守的表达模式。例如,在两种物种中,多能性标志物 POU5F1、NANOG、CDH1 的蛋白丰度在晚期胃胚样体中均低于其干细胞祖细胞。相反,ZEB2(一个参与上皮-间质转化的关键蛋白
在比较两种物种中所采样的阶段时,我们惊讶地发现,预激状态的 RUES2-GLR 细胞的蛋白质组与小鼠早期胃胚样体最为接近。尽管这种关联在很大程度上是由线粒体蛋白的上调所驱动,但 RUES2-GLR 细胞(被认为处于着床前与着床后状态之间)有可能在蛋白水平上已经预先准备进入原肠胚形成。因此,我们的结果也凸显了分期方面潜在的物种特异性差异,尤其是在代谢和线粒体状态方面。然而,仍需要更多研究来理解这些效应的程度,并排除其可能源于不能反映
蛋白质系统共调控研究(
最后,我们发现,共调控与网络分析能够识别疾病邻域。我们经常观察到,与相同发育性疾病相关的基因在蛋白水平上彼此高度相关。Commander 复合体的亚基与 Ritscher-Schinzel 综合征相关
尽管本研究对胃胚样体发育过程中的转录组、蛋白质组和磷酸化蛋白质组进行了定量描绘,但它并不完整,也不全面。首先,尽管我们在胃胚样体中采样了胚胎发育的 4 个阶段,但若能在胃胚样体发育过程中采集更多时间点并采用更精细的时间窗口进行分析,将能够提供更高的分辨率,并增强我们对这些样本中时间动态的理解。其次,尽管我们定量了约 7,500 个人类蛋白和约 8,700 个小鼠蛋白,这代表了可观测蛋白质组的相当大一部分。
本研究中开展的所有实验,包括小鼠 gastruloid 和人 RA-gastruloid 的诱导、细胞和/或分子分析,均经华盛顿大学胚胎干细胞研究监督委员会(Embryonic Stem Cell Research Oversight)审查并批准(E0047-001)。本研究的实施遵循国际干细胞研究学会《干细胞研究与干细胞临床应用指南》中所阐述的原则。
E14Tg2a 细胞系由 Christian Schroeter 博士(马克斯·普朗克研究所)提供。
小鼠 naïve ESCs 维持于 2iLif 培养基中。
小鼠 EpiLC 分化按既往方法进行。
小鼠 gastruloid 诱导按既往方法进行。
多能干细胞系 hESCs(RUES2-GLR)由 Ali Brivanlou 博士(洛克菲勒大学)惠赠。化学重置(cR)的 H9 naïve 和 primed 细胞由 Austin Smith 博士(埃克塞特大学)惠赠。
化学重置(cR)的 H9 naïve hESCs 按既往方法,在铺有经照射处理的 MEF 饲养层的 N2B27 + PXGL 培养基中传代培养,其中 PXGL 包含 P(1 mM PD0325901)、X(2 mM XAV939)、G(2 mM Gö 6983)和 L(10 ng/mL 人 LIF)。
人 primed ESCs 在 Geltrex(Thermo, A1413201)包被的培养板上使用 StemFlex(Thermo, A3349401)培养,并按照制造商推荐的方法,常规使用 StemPro Accutase(Thermo, A1110501)消化传代至新的 Geltrex 包被孔中。传代后最初 24 小时内,hESCs 在含 10 μM Rho kinase 抑制剂 Y-27632(Selleck, S1049)的 StemFlex 培养基中培养,以防止细胞凋亡。
人 RA-gastruloid 按既往方法诱导。
RUES2-GLR ESCs 中的遗传扰动按既往方法使用 CRISPR-Cas9 RNA-蛋白复合物进行。
使用 StemPro Accutase 解离 RUES2-GLR ESCs,并以补充 10 mM Y-276322 的 DMEM-F12 营养混合液终止其活性。每种扰动条件下,收集 200,000 个细胞,并以 250g 离心 5 分钟。将细胞重悬于 20 µl 核转染缓冲液中(16.4 µl Nucleofector Solution + 3.6 µl Supplement;Lonza P3 Primary Cell 4D-Nucleofector X kit S,V4XP-3032 提供)。
向细胞中加入 3 µl RNP 和 0.5 µl AltR-Cas9 Electroporation Enhancer(IDT, 1075915),随后转移至 16 孔 Nucleocuvette Strips 中,并使用 CA-137 核转染程序进行电转。核转染后的细胞转移至含有 Nutristem 或 StemFlex 且补充 10 mM Y-27632 的 12 孔板中培养,24 小时后将培养基更换为不含 Y-27632 的 Nutristem。细胞继续培养至汇合度达到 50–70%。
随后,将电转后的细胞转移至 0.5 μg/cm
10 mM 储备液通过将 MK-2-in-1(HY-12834, MedChemExpress)重悬于 DMSO 中配制。MAPKAPK2 扰动通过在 RA-gastruloid 诱导过程中加入 10 μM MK2in1 实现,于第 0 天加入,并于第 2 天补加。
ESCs 按既往方法固定并染色。
Gastruloids 按既往方法固定并染色。
每个阶段均包含2个生物学重复,并在同一实验批次内采集,以尽量减少批次效应。在4个gastruloid发育阶段中,每个重复样本分别从小鼠和人细胞中采集约50万个细胞。每个样本的DNA和RNA均使用Qiagen AllPrep DNA/RNA试剂盒(Qiagen #80204)进行分离。约500 ng总RNA被用作建库输入。
使用NEBNext Poly(a) mRNA Magnetic Isolation Module(NEB #E7490)分离mRNA,并使用NEBNext UltraII RNA Library Prep Kit for Illumina(NEB #E7770)制备用于测序的文库。
所有样本的cDNA文库浓度通过Qubit(Invitrogen)测定和/或通过Tapestation(Agilent)可视化评估,以确保文库大小处于标准范围。所有文库均采用8个核苷酸索引进行双端加索引,使用NEBNext® Multiplex Oligos for Illumina®(Index Primers Set 1),并在NextSeq 2000(Illumina)平台上以2×150 bp或2×50 bp模式进行测序。
使用bcl2fastq(Illumina)将basecall文件转换为fastq格式,并基于i5和i7索引进行拆分。采用FastQC评估测序读段质量。使用Trimmomatic v0.39进行接头去除和低质量读段过滤。
对于所分析的每个阶段,我们在4个gastruloid发育阶段中每个重复样本采集了100万至250万个细胞。为减轻批次效应,每个发育时间点的所有重复样本均在同一批次中同时采集。各阶段的干细胞通过使用Accutase进行酶解离,从培养板中收集。
细胞沉淀在冰上解冻,并重悬于裂解缓冲液中(8 M尿素、250 mM EPPS,pH 8.5、50 mM NaCl、Roche蛋白酶抑制剂混合物、Roche PhosSTOP)。使用21号针头对细胞沉淀进行匀浆以获得注射器泵送裂解液。裂解液在4°C、21,130 g条件下离心30分钟以澄清。将上清液转移至洁净微量离心管中,并进行BCA测定(Pierce)以确定蛋白浓度。
对于原肠形成各时间点的生物学三重复样本,取含有25 μg蛋白的裂解液,在室温下用5 mM二硫苏糖醇(DTT)还原30分钟,并在室温避光条件下用20 mM碘乙酰胺(IAA)烷基化1小时。随后用15 mM DTT终止IAA反应。单锅固相样品制备(SP3)
混合样品重悬于94 μL含80%乙腈和0.1%三氟乙酸的溶液中,用于Fe
保存的流穿液使用真空离心浓缩仪干燥,重悬于500 μL 5%甲酸中,并使用Sep-Pak C18小柱(Waters)对样品进行脱盐。流穿液样品在脱盐后使用真空离心浓缩仪完全干燥。随后将流穿液样品重悬并中和于1 mL 10 mM碳酸氢铵/90%乙腈中,并再次使用真空离心浓缩仪完全干燥。样品重悬于115 μL 10 mM碳酸氢铵和5%乙腈中,其中110 μL转移至样品瓶。使用Agilent 1200 HPLC系统对流穿液样品进行高pH反相HPLC分级。HPLC分级后
所有分析均使用Orbitrap Eclipse Tribrid质谱仪(Thermo Fisher Scientific)联用Easy-nLC 1200自动进样器(Thermo Fisher Scientific)进行。肽段采用一根长度为15 cm、内径为75 μm、填料粒径为1.7 μm的C18色谱柱(IonOpticks)进行分离。离线分级收集的每个组分均采用90 min梯度进行分析,流动相为0.125%甲酸中的2%至26%乙腈,流速为500 nl/min。
MS1分辨率设定为120,000,扫描范围为400–2000 m/z,归一化自动增益控制(AGC)目标值为200%,最大离子注入时间为50 ms。FAIMS电压在恒定补偿电压(CV)-40 V、-60 V和-80 V之间循环切换并激活。MS2扫描参数为:AGC目标值200%,最大离子注入时间50 ms,隔离窗口0.5 m/z,CID碰撞能量35%(活化时间10 ms),扫描速率为“Rapid”。SPS-MS3
重复进样(4 μL)在Orbitrap Eclipse Tribrid质谱仪(Thermo Fisher Scientific)联用Easy-nLC 1200自动进样器(Thermo Fisher Scientific)上进行分析。肽段采用一根长度为15 cm、内径为75 μm、填料粒径为1.7 μm的C18色谱柱(IonOpticks)进行分离。每个组分均采用90 min梯度进行分析,流动相为0.125%甲酸中的2%至26%乙腈,流速为400 nl/min。
MS1扫描分辨率设定为120,000,扫描范围为400–1800 m/z,归一化AGC目标值为200%,最大离子注入时间为50 ms。FAIMS电压在补偿电压-40、-60和-80 V之间循环切换。MS2扫描参数为:AGC目标值250%,最大离子注入时间35 ms,隔离窗口0.5 m/z,CID-多级活化(MSA)碰撞能量35%(活化时间10 ms),并对中性丢失质量n-97.9763进行附加活化,扫描速率为“Rapid”。对于SPS-MS3扫描
原始文件使用Uniprot中相关注释蛋白质组进行检索(人:2020年10月;小鼠:2021年3月)。常见污染蛋白和诱饵蛋白的序列也被加入Uniprot FASTA文件中一并进行检索。Comet搜索算法
发育阶段类原肠胚之间的差异表达蛋白(DEPs)按如下方法鉴定。对于每种蛋白,我们计算了两个给定时间点之间平均丰度的 log2 比值,并使用标准 t 检验计算其 p 值。我们采用 Benjamini-Hochberg(BH)程序对 p 值进行校正,以控制多重假设检验带来的影响。若蛋白在两个给定时间点之间的绝对倍数变化大于阈值且 BH 校正后的 p 值 < 0.05,则将其归类为 DEP。
所有定量蛋白均映射至已知转录因子(整理自转录因子数据库)。
我们首先取人和小鼠蛋白质数据集的交集,并使用了在同一细胞系共享时间点中观测到的 6,261 种蛋白。
我们将七类主要注释视为任意给定边的文献证据:1)蛋白质-蛋白质相互作用,2)属于同一蛋白复合体,或 3)同一生化通路,4)GO 生物过程,5)GO 分子功能,6)GO 细胞组分,或 7)亚细胞定位。蛋白复合体注释来源于 CORUM。
我们在相关性网络中检索了所有节点,以匹配已知复合体和通路,这些复合体和通路至少包含 3 个亚基。我们采用了先前报道的一种方法。
全局 RNA-蛋白相关性基于小鼠和人类类原肠胚发育过程中转录本和蛋白的全部 9 个观测值进行计算。为确保分析的严格性,我们筛选出在两个物种中均检测到的基因用于下游分析。向筛选后的计数矩阵中加入 1 作为伪计数,并将其转换为每百万转录本数(TPM)。平均转录本和蛋白丰度相对于各自物种几何平均值转换为 log2 倍数变化比值。对于每个基因,我们计算了基因层面的 RNA-蛋白相关性(r)。
对于差异表达检验与分析,在每一组两两比较中,先计算所有定量磷酸化位点的 log2 比值,再减去相应蛋白的 log2 比值,以鉴定独立于蛋白水平变化的磷酸化变化。激酶-底物配对信息整理自 PhosphositePlus。
R.K.G. 和 N.H. 在 D.K.S. 的咨询下构思了本研究。R.K.G. 和 N.H. 开展了干细胞和类原肠胚实验。R.K.G. 和 N.H. 在 S.C. 和 S.B. 的协助下完成了转录组学实验。V.L.、R.F. 和 C.D.M. 完成了蛋白质组学和磷酸化蛋白质组学实验。R.K.G. 在 N.H.、M.S. 和 D.K.S. 的支持下对数据进行了计算分析。J.S. 在 R.K.G. 的协助下构建了网络界面。
R.K.G.、N.H.、V.L.、D.K.S.、L.M.S. 和 J.S. 撰写了论文。D.K.S.、N.H.、L.M.S. 和 J.S. 负责监督实验与数据分析。
J.S. 为 Cajal Neuroscience、Guardant Health、Maze Therapeutics、Camp4 Therapeutics、Phase Genomics、Adaptive Biotechnologies、Scale Biosciences、Prime Medicine、Somite Therapeutics、Sixth Street Capital 和 Pacific Biosciences 的科学顾问委员会成员、顾问和/或联合创始人。
D.K.S. 为 ThermoFisher Scientific、AI Proteins、Genentech 和 Matchpoint Therapeutics 的顾问和/或合作方。其余作者声明不存在竞争性利益。
补充表1—人和小鼠 gastruloid 发育数据集中定量蛋白强度
补充表2—具有相似时间变化谱的蛋白质簇的基因本体论(GO)富集
补充表3—蛋白质两两相关性网络
补充表4—蛋白质相关性网络的汇总统计
补充表5—蛋白质复合体的协同蛋白
补充表6—协同蛋白对重叠的 Jaccard 指数矩阵
补充表7—整个数据集中的蛋白质-RNA 不一致性
补充表8—蛋白质复合体和通路中的蛋白质-RNA 相关性
补充表9—小鼠 gastruloid 发育过程中不一致基因集的阶段特异性 GO 富集
补充表10—人和小鼠 gastruloid 发育数据集中定量磷酸化位点强度
补充表11—多能性标志物 POU5F1、NANOG 和 POU5F1 下游蛋白的磷酸化位点
补充表12—在人类数据集中定量的疾病相关基因和复合体
补充表13—用于基于 RNP 的 Commander 共调控网络扰动的 gRNA 序列
补充表14—本研究中使用的抗体
RNA-seq 数据已提交至 Gene Expression Omnibus(GEO)数据库,登录号为 GSE273813。质谱蛋白质组学数据已提交至 ProteomeXchange Consortium。
所有支持性脚本和代码已存储于以下代码库:
在华盛顿大学,作者感谢 Diego Calderon、Chengxiang Qiu、Jean-Benoît Lalanne、Aidan Keith 和 Shawn Fayer,以及 Shendure 和 Starita 实验室的其他成员,特别感谢他们提出的重要见解、参与讨论并提供反馈。作者感谢 Valentino Browning、Eva Nichols 和 Katie Partington 在显微镜和成像相关工作中提供的协助与建议。
作者还感谢 Akshaya Rajaraman 和 Kevin Drew(伊利诺伊大学芝加哥分校)就网络分析和蛋白质复合体映射提供的建议与反馈。
R.K.G. 感谢华盛顿研究基金会博士后奖学金的支持。D.K.S. 感谢美国国立卫生研究院/美国国立普通医学科学研究所(NIH/NIGMS,R35GM150919)、华盛顿研究基金会、W.M. Keck 基金会、Andy Hill CARE 杰出研究员奖、癌症联盟新研究者奖以及皮尤慈善信托基金会的支持。R.K.G.、S.C.、S.B. 和 L.M.S. 获得了美国国家人类基因组研究所(NHGRI;1RM1HG010461)的支持。
J.S. 是霍华德·休斯医学研究所的研究员,并感谢 Paul G. Allen Frontiers Group(艾伦细胞谱系追踪发现中心)和 Brotman Baty 精准医学研究所的支持。
手稿中的图表和文本已更新,以反映新的结果。
📄 原文链接:https://www.biorxiv.org/content/10.1101/2024.09.05.609098
🏷️ 原肠样体 胚胎发育 蛋白质组学 磷酸化 激酶活性 多能性退出