Nature:超13万人大规模循环代谢标志物与全基因组关联研究
2024-03-18

了解参与系统代谢的遗传因素及其与疾病之间的关系是一个极其复杂且亟待阐明的科学问题。虽然已经有不少的大型疾病联盟发现了许多与代谢和疾病相关的基因,但是更全面的大规模队列研究仍然有所欠缺。代谢表型是全基因组关联研究(GWAS)的优质中间性状,血液代谢物可用于发现循环代谢物的遗传决定因素,特别是在了解疾病相关遗传突变的代谢背景。核磁共振波谱(NMR)和质谱分析技术的进步使分析技术能够从大量生物样本中提供数百种定量代谢测量结果。GWAS与代谢分析平台相结合可以用来确定许多与循环代谢特征相关的基因位点。有研究将基因组学和基于核磁共振波谱的高通量代谢组学平台的详细代谢谱分析相结合,发现了数十个与循环脂质、脂蛋白和脂肪酸以及氨基酸等小分子相关的基因位点。

近日,来自芬兰奥卢大学的Minna K. Karjalainen课题组在Nature上发表了研究论文Genome-wide characterization of circulating metabolic biomarkers,该课题组极大的拓展了之前的研究队列,在该研究中通过对超过13万人的循环代谢特征与全基因组关联研究,发现了400多个独立的基因位点并确定了其中可能的因果基因,样本和参与者特征会影响遗传关联。该文章的发现对于全面表型分子数据的转化具有重要意义,同时也揭示了多种代谢途径的大量遗传多效性,为孟德尔随机化分析提供了理论指导价值。

为了揭示大规模循环代谢标志物和遗传突变之间的关系,作者进行了分为33个队列的GWAS分析,以后随后进行的Meta分析涉及了233个代谢特征,其中包含213项脂质、脂蛋白和脂肪酸以及20项非脂质特征。经过质控过滤后,多达13389637个估算的单核苷酸突变(SNPs)被纳入Meta分析,参与的人数达到了136016人。通过Meta分析,可以发现所有233个代谢特征在全基因组范围内存在显著关联,并具有广泛的基因多效性和多基因性。有276个宽广的区域与至少一种代谢特征相关,其中86个区域只与一种代谢物相关,大多数区域与多个代谢特征相关。在特征明确的脂质相关APOE区域,相关的特征最多可达到214个。另外一个特点是,脂质性状大多具有明显的多基因性,而大多数非脂质性状的相关基因位点要少得多。作者还利用UK Biobank资源中的NMR数据分析独立人群中主要变异的关联性,并评估参与者特征和样本相关因素对关联性的影响。UK Biobank中主要是非空腹样本,但作者进行Meta分析的队列主要为空腹样本,Meta分析结果表明一些葡萄糖相关性是由以空腹样本为主的队列驱动的,而在UK Biobank中不存在这些相关性。因此,在解释代谢特征的GWAS结果和进行下游分析时,需要仔细考虑样本类型和空腹状态的影响。

接下来,作者对443个位点中的297个位点进行了广泛的人工整理,筛选出231个可能的因果基因,这些基因与相关性状具有明确生物学关联。经过详细的表征,作者在16号染色体上的一个7.6-Mb区域中确定了6个不同的生物相关潜在因果基因关联着139个代谢特征,体现了代谢特征相关基因的复杂性。为了深入了解脂质基因位点影响脂蛋白代谢连续性的不同方式,作者还对具有相似代谢关联特征的基因簇进行了表征。他们将注意力集中到134个与载脂蛋白B(apoB)相关的位点,分析发现尽管这些位点与血脂和脂蛋白性状中存在很强的相关性,但仍然能发现一些与性状不一致的基因位点。TRIM5基因是与42种脂蛋白和脂质性状相关的特征不明显的基因座的一个例子,暗示着TRIM5基因可能发挥着影响血脂和脂蛋白的功能。

除了脂质代谢特征的详细分析,作者还想要了解这些代谢特征相关突变在疾病中的作用。通过整合多个研究数据集,发现在1447个主要SNPs中,大多数以前都报道过与性状或疾病相关联,并且大多数也与mRNA和蛋白水平相关。其中,7个代谢特征相关位点与妊娠肝内胆汁淤积症(ICP)风险相关。ICP会增加羊水胎粪染色、早产、胎儿心动过缓等风险,其遗传背景特征尚不明确,已发表的GWAS很少,而且相关位点的代谢效应也未阐明。在作者的研究中额外发现了3个新基因位点(UGT8, NUP153和HKDC1)。对ICP相关基因位点的通路分析表明,与胆汁酸、葡萄糖和脂质代谢相关的生物过程富集,这与代谢特征相关性一致。通过详细描述ICP相关基因位点与代谢特征的关联,作者的分析证明了将代谢关联信息与疾病关联信息结合起来,可以用来揭示一些了解较少的疾病代谢基础。

文章的最后,作者进行了双样本孟德尔随机分析来研究20个非血脂形状的遗传预测水平与UK Biobank中定量性状的关联。分析发现了503种显著的关联,包括葡萄糖与糖尿病、肌酐与肾衰竭以及氨基酸与糖尿病之间的正关联。此外,还包括一些表征较少的关联,如遗传预测乳酸水平与子宫良性肿瘤之间的正相关,以及循环甘氨酸水平与血压之间的负相关,这些预测发现都得到了已发表数据的支持。作者的分析还发现当选择用于孟德尔随机化的工具时,应仔细考虑基因多效性,以避免对潜在因果关系的错误解释。这是因为遗传多效性在代谢指标中很常见,甚至在一些非血脂性状中也是如此。

总的来说,这篇文章通过大规模队列分析全面揭示了代谢特征与遗传突变之间的关联,从而大大提高了对全身代谢遗传调控的认识。通过系统的人工整理,确定了许多高度可信的致病基因,这为进一步从生物学角度理解相关性提供了非常有用的资源,该研究方法能用于定位疾病相关性高置信度的致病基因。

原文链接:https://doi.org/10.1038/s41586-024-07148-y