Cell: 3'UTR变异在人类进化以及疾病中的功能 | Cell Press论文速递
2021年09月20日  |  来源:Cell Press细胞科学  |  阅读量:7434

3'非翻译编码区(3' UTR)变异与人类的进化和疾病密切相关,该区域如何调控疾病的发生并不十分清楚。我们开发了3'UTR大规模平行报告测定系统(MPRAu),对12173个3'UTR的可变序列进行了测定。我们将MPRAu应用于六种人类细胞系,重点关注与全基因组关联研究(GWAS)和人类进化适应有关的遗传变异。MPRAu增强了我们对3'UTR功能的理解,表明3'UTR调节活性主要是由简单序列所决定的。利用该方法,我们在碱基对(bp)分辨率上发现了多种不同的分子机制,例如LEPR中一个富含腺苷酸(AU)的调节元件与东亚人潜在的代谢进化适应有关。我们提出了与遗传学上的精细测绘表型相关联的的数百个3'UTR可变序列。利用内源性等位基因替换,我们描述了一个破坏调节病毒防御基因TRIM14的miRNA位点的变异、一个改变了PILRB丰度的变异,并提出了年龄相关性黄斑变性中导致转录变化的一个决定性3’UTR可变序列。

引言

在过去的二十年里,全基因组关联研究(Genome-wide association studies,GWAS)发现了数千个变异-性状关联(variant-trait associations)。然而,GWAS在阐明复杂疾病的机制时存在两方面的局限性:1)连锁不平衡(linkage disequilibrium, LD),即不同位点的等位基因之间由于强遗传连锁而产生的关联,从而导致邻近的中性遗传多态性(neutral polymorphisms)区域显示出类似于因果基因座(causal loci)的强关联。这大大增加了功能验证的难度;以及2)超过90%的关联位点位于基因组的非编码区,对这些区域的功能分析比编码区更难。3'非翻译区(3' UTR)包含一类特别重要的非编码可变序列,可以影响转录后调控和翻译过程。研究人员对人类外周血进行顺式表达数量性状基因座分析(eQTL)发现,3‘UTR的序列可变性为其它区域的4倍。基因型-组织表达项目(GTEx)发现,在所有组织中,3'UTR中的eQTLs富集程度翻倍,这是所有非编码区中富集程度最高的区域。除转录起始位点外,非翻译区的GWAS可遗传性(GWAS heritability)是其它非编码区域的5倍,这些都说明了转录后调控在人类调控序列的可变性中的重要地位。尽管3'UTR变异对于理解人类表型变异至关重要,但只有少数几个3'UTR可变序列的功能得到了描述。其中包括与位于TNFSF13B与狼疮和多发性硬化相关的BAFF-var,,位于LPL高密度脂蛋白胆固醇水平相关的rs13702,以及位于TCF21与冠状动脉疾病相关的rs12190287。每种关联性都需要在多个性状或群体数据集上进行元分析,并与目前已知的调控因子进行比对,然后再通过低通量荧光素酶确认。这一过程表明,目前3'UTR因果变体的发现流程十分复杂,说明我们亟需一种高通量的工具来研究3'UTR序列可变性对基因表达以及功能的性影响。

在此,我们开发了针对3'UTRs的大规模平行报告测定系统(MPRAu),以高通量、准确和可重复的方式同时量化了数千个3'UTR可变序列的等位基因表达差异。MPRAu检测了3'UTR调控的不同方面,使我们能够通过计算建模了解调控转录物丰度的总体序列特征,准确指出功能多样性背后的序列架构,包括RNA结构和RNA结合蛋白(RBP)的占用。此外,MPRAu还能揭示与疾病发生具有因果关系的遗传性可变序列(Causal variants)。我们利用MPRAu全面检测了六种人类细胞系中与疾病相关且具有进化适应性的3' UTR遗传变异。在所有MPRAu揭示的功能性因果变异中,我们还利用CRISPR诱导的等位基因替换更详细地描述了两种变异。

结果

MPRAu再现了数千个3'UTR元件的功能特征

我们应用MPRAu来系统地评估了3'UTR遗传变异的功能效应。为此,我们设计并合成了源自人类3'UTR的100个碱基对(bp)的寡核苷酸,将变异之间的唯一差异——“参照”(ref)或“替代”(alt)等位基因为中心(图1A),并使用MPRAu进行检测。首先,我们将上述寡核苷酸库克隆至一个由中等强度启动子控制的质粒报告基因的3'UTR中。然后,我们通过将寡核苷酸库转导至特定细胞系中,并对质粒库和细胞的mRNA进行测序,比较了每个3' UTR寡核苷酸的稳态RNA表达效果。我们把增加mRNA水平的3'UTR寡核苷酸背景确定为“增强”效应,把减少转录物水平的寡核苷酸背景确定为具有“减弱”效应。我们还量化了携带ref和alt等位基因的序列之间的差异,并将具有统计学意义的 “等位基因偏移”(allelic skew)的等位基因称为转录物丰度调节变异(tamVars)。此外,MPRAu采用了一些质量控制措施以尽量减少偏差,包括使用随机条码以确保足够的寡核苷酸库复杂性等。

我们使用MPRAu鉴定了与人类疾病和进化选择相关的功能性3’UTR变异,总共检测了 12,173个3’UTR变异。我们在六种不同的人类细胞系中对这些变异进行了表征,包括HEK293(胚胎肾细胞系)、HepG2(肝细胞癌细胞系)、GM12878(淋巴细胞系)、SK-N-SH(神经母细胞瘤细胞系)、K562(白血病细胞系)和一个原始细胞系(HMEC,乳腺上皮细胞系)。

我们确信本研究构建的检测方法能够评估具有调控活性的寡聚物,且能通过比较同一3’UTR的等位基因之间的表达变化确定改变3’UTR功能的tamVars(图1D)。我们在所有细胞类型中发现了2,368个tamVars(表S1)。为了评估tamVars的细胞特异性,我们应用了Mash(Urbut et al., 2019年),发现tamVars在所有六种细胞类型中都基本存在(81.2%),但只对一种细胞类型具有特异性(1.6%)(图1E,1F,S2A,和S2B)。

此外,我们还对tamVars进行了多聚体分析和荧光素酶试验,发现其结果与MPRAu测量一致,这一结果表明,MPRAu分析的RNA丰度测量在表型水平上意义非凡。

讨论 

我们开发了一个高通量的工具——MPRAu,用于表征3'UTR变异的功能,并利用该工具在六个细胞系中识别了2,368个调节转录物丰度的UTR可变序列。我们建立了强大的3'UTR功能预测模型,并确定了3'UTR的调节模式。这个表征了GWAS、选择信号和3'UTR常见变异的资源对于未来正在进行的人类适应和疾病研究大有益处。我们预计MPRAu将成为一个常见的实验范式,用以检测意义未知的变异和罕见变异。未来,MPRAu可能会进一步完善,用于专门检测影响特定调控机制的变异,例如转录终止或mRNA定位,以及深入探究我们通过tamVars发现的潜在的miRNA/RBP机制。

此外,我们仍需要进一步的实验来评估每个候选变异在相关细胞环境中的作用。例如,尽管TRIM14的表达在多种病毒感染中受到抑制,包括导致COVID-19大流行的SARS-CoV-2病毒,但rs1059273在调节病毒传染性方面的确切程度尚不清楚。虽然我们在六种不同的细胞环境中测试了我们的检测方法,但在疾病特定组织中应用我们的检测方法时,可能会发现更多的表型相关变异。目前,调控复杂人类疾病的 3' UTR 元件中的潜在因果变异在很大程度上受到忽视,因为缺乏表征这些变异的工具。大规模增加3’UTR测量,特别是在表型相关遗传变异的背景下,或许能为未来的基因组功能模型提供新信息。总的来说,MPRAu提供了一个框架,用于根据功能对 3' UTR 中的调节变异进行优先排序。我们的研究有助于人们更全面地了解对非编码区变异功能重要的调控过程。

回到顶部