转座子(TE)是几乎所有生命体的基因组“寄生虫”,持续的TE活性威胁着基因和基因组的完整性,因此需要采取策略来抑制其活性。TE是人类基因组的主要组成部分,占据了大约一半的内含子空间。尽管有广泛的策略来抑制TE的表达和扩增,但至少有40%的现存人类基因组由TE衍生的DNA组成,随着L1、Alu和SVA家族逆转录转座子的活跃扩增以及人群中多态插入的产生,这一比例似乎还在增加。当这些插入发生在基因内时,它们可以通过改变基因座的表观遗传或干扰转录后RNA加工来影响宿主基因的表达。由于剪接位点序列的相对简单性,内含子TE插入可以在健康组织和癌症组织中产生选择性剪接的外显子,从而导致TE的“外显子化”。然而,在mRNA前体合成过程中,内含子TE与其宿主基因一起转录,但很少参与最终的mRNA产物,因为它们与内含子一起剪接并迅速降解,绝大多数内含子TE从未被外显子化。矛盾的是,TE是RNA加工信号的丰富来源,通过它可以产生新的内含子,也可以产生功能性或非功能性的嵌合转录本。这意味着存在一种弹性剪接密码,能够抑制TE外显子化而不影响宿主mRNA前体的加工。
为了探索调节人类基因组内含子TE剪接的新因子,近日,来自德国马克斯·普朗克分子遗传学研究所的Tuğçe Aktaş在Nature上在线发表题为Autonomous transposons tune their sequences to ensure somatic suppression的文章,发现SAFB蛋白可通过防止L1元件的逆转录转座来保护基因组完整性,同时通过防止先前整合的TE的外显子化来保护剪接完整性,揭示了SAFB蛋白作为一种基于RNA的、模式引导的、非适应性的防御系统,可以对抗体细胞中的TE,从而补充了生殖细胞系中基于RNA的、适应性的Piwi相互作用的RNA途径。
本文研究人员首先利用FLASH(Fast Ligation of RNA after some sort of Affinity Purification for High-throughput Sequencing,一种识别细胞中RNA与蛋白质相互作用的超快速方法)在HEK293细胞中鉴定了33个RNA结合蛋白(RBP)的结合位点,重点研究了SR/SR样蛋白和hnRNP蛋白,它们分别在促进和抑制剪接中发挥重要作用。使用UMAP(Uniform Manifold Approximation and Projection)对FLASH生成的结合数据进行降维投影到二维平面上,并使用HDBSCAN算法识别聚类。对每个聚类中TE的富集程度进行分析,研究人员发现聚类1特异性富集了正义链L1 RNA。聚类1的峰值主要来源于三种具有ER型重复序列的SR样蛋白——支架连接因子B1(SAFB1)、SAFB2和SAFB样转录调节因子(SLTM)——这三种蛋白构成了哺乳动物的SAFB蛋白家族,其中SRSF12的贡献很小 (约1%),这是一种功能未知的睾丸富集SR蛋白。SAFB1、SAFB2和SLTM的特征是在N端有一个DNA结合的SAP结构域,在中间有一个RNA结合的RRM结构域,然后在C端有一个富含ER的重复序列。这种分子结构和序列的相似性反映在结合模式上,显示出SAFB家族靶点的很大程度的重叠。与UMAP的表征一致,正义链L1 RNA是SAFB数据中最丰富的TE。而令人惊讶的是,也存在着正义链Tigger DNA转座子的富集,其功能性灭绝至少4000万年。进一步实验也证实SAFB蛋白可以与插入在与宿主基因相同链上的L1和Tigger重复序列结合,并避免了反义链插入。
L1元件是目前人类基因组中唯一活跃的自主转座子,研究人员发现SAFB蛋白与L1 RNA结合并保留在细胞核中,从而阻止它们逆转录转座到新的遗传基因座中。在哺乳动物中,与SAFB蛋白结合的L1 RNA的编码片段显著富含腺嘌呤,并且可以通过优化密码子序列以获得更高的鸟嘌呤:胞嘧啶(GC)含量来改变。基于此,研究人员设计实验,证实L1中A偏置的去除消除了SAFB蛋白识别的关键序列特征,表明通过维持偏向A的编码序列,哺乳动物L1元件仍然受到SAFB的抑制。进一步地利用RNA测序,研究人员发现SAFB蛋白的缺失影响了携带L1 RNA序列的基因的表达,观察到的基因表达变化是SAFB蛋白直接参与的转录后过程改变的结果。研究证据表明,SAFB蛋白结合到有可能作为基因陷阱的转座元件上,并通过阻止使用它们的聚腺苷酸化位点(PAS)来保持它们的内含子化,这也解释了在RNA测序数据中看到的Tigger元件和L1的显著上调。这些转座子上SAFB结合的缺失激活了隐藏的剪接位点,将TE编码的内含子化的PAS带入外显子环境并终止宿主基因的表达。
随后,研究人员使用SpliceAI评估在SAFB KD中检测到的新剪接位点的强度,分析表明,在新位点周围的500 nt窗口内,新剪接位点确实比注释剪接位点弱,但比随机AG或GT二核苷酸强。重要的是,尽管比注释剪接位点弱,但新剪接位点在500 nt窗口内是最强的。已知L1和Tigger元件是无内含子的单外显子基因,既不剪接也不需要剪接来扩增,因此,这两种元件中都富含可以在SAFB缺失的细胞中充当剪接增强子的序列的发现令人惊讶。对FLASH数据的分析显示,SAFB蛋白识别一个腺苷偏向、富含嘌呤的序列GAAGAA——一个典型的外显子剪接增强子(ESE)基序,可强烈促进剪接。进一步地,研究人员发现,SAFB蛋白是新生L1 RNP的重要组成部分,SAFB水平的降低往往会增加SR蛋白(可与富含GAA的ESE基序结合)在SAFB靶点的结合,这也解释了在SAFB缺失的细胞中内含子TE剪接位点的激活以及无内含子的全长L1 RNA的细胞质积累。与此同时,实验结果发现了一组常见的hnRNP和hnRNP样蛋白可以与SAFB蛋白结合,生化证据提示SAFB蛋白和相关hnRNP与SR蛋白动态竞争,从而抑制其靶RNA的外显子化。
上述研究结果表明,SAFB蛋白可以与结合GAAGAA和类似富含嘌呤基序的SR蛋白竞争,以防止L1、Tigger和假基因的同链插入干扰剪接,而不会干扰含有类似ESE基序的平均大小外显子的剪接。有趣的是,研究人员观察到SAFB对长链RNA的偏好,并且SAFB蛋白在长编码外显子上的富集也是独特的,其中有一类新的长外显子类别——巨蛋白编码盒式外显子。可见,与平均大小的外显子(约150nt)相比,长外显子(超过1kb)更容易受到SAFB介导的抑制。究其原因,研究结果发现,在与RNA聚合酶II释放的未甲基化新生RNA相互作用方面,SR样蛋白TRAB2明显优于SAFB1;然而,随着RNA在细胞核中逐渐甲基化,这种优势将转向SAFB1。因此,与平均大小的外显子相比,无内含子的富含A的L1转录本和巨大的外显子更有可能通过进行性m6A修饰受到SAFB的调节。
与此同时,研究人员证实,其他物种如小鼠和果蝇中的SAFB蛋白的功能也与上述在人类中发现的类似,具有高度保守性,而且SAFB还能抑制在这些物种中具有活性而在人类基因组中不再具有活性的LTR/ERV元件。研究结果表明SAFB蛋白在抑制TE活性中的作用具有深刻的进化根源,可能与调节嵌套基因表达、防止假基因外显子化和调节巨型盒式外显子剪接的需要有关。研究人员发现,尽管SAFB蛋白在体细胞组织和生殖系细胞中广泛表达,但其水平在精子发生过程中下降,体细胞中受SAFB抑制的剪接事件的一个重要部分在睾丸中被激活,提示这在进化上是有利的。
综上所述,本文研究揭示了一种模式,即长的、腺嘌呤偏倚的RNA通过吸引SAFB蛋白而保持内含子化,这一过程可能也受到m6A修饰的影响。自然的或诱导的SAFB表达减少可导致这些RNA的外显子化,如返座基因(retrogene)、假基因、嵌套基因、巨大编码外显子和自主转座子,尤其以L1元件最显著(图1)。本研究的结果表明,必须表达至少一种蛋白质才能复制的自主TE维持腺嘌呤偏向的编码序列,从而在TE活性无效的体细胞中受到SAFB介导的抑制,而这无疑为精子发生过程中打开了一个高度可控的机会之窗,避免灭绝,从而使TE继续为其宿主基因组的进化做出贡献。

图1
原文链接:https://doi.org/10.1038/s41586-024-07081-0
