JAMA Psychiatry:miRNA在精神分裂症中的作用
(不做实验的高分SCI)
随着二代测序技术的不断发展,海量数据日渐积累,很多公共的数据可以用来挖掘出有价值的信息。今天小编跟大家扒拉的是一篇发表在 JAMA Psychiatry(2016 年IF=15.307)上的文章的分析方法。全文利用的都是公共数据库和在线网站,并没有费一兵一卒来做实验,对于想要从生物信息角度入手的你,值得学习。
精神分裂症:what, why, how ?
何为精神分裂症?精神分裂症是一种常见的精神障碍,人群发病率为 1% ,全世界大约有超过 2100 万人被该疾病所困扰。其主要症状包括幻觉(幻视/幻听)、妄想、思维障碍等阳性症状,以及情感淡漠、言语缺乏、快感缺失等阴性症状,并伴随有认知功能损害。精神分裂症具有易复发、慢性化的特点,给患者本人及其家属带来极大痛苦,同时也给家庭、医疗系统以及整个社会带来沉重的经济负担。
精神分裂症具有很高的遗传度
前普遍认为精神分裂症是受多基因调控的复杂疾病。一级亲属共患病及双生子的研究均表明精神分裂症具有高度的遗传性,其遗传度(指在多基因疾病形成过程中,遗传因素的贡献大小。遗传度越大,表明遗传因素的贡献越大)在 70%~90% 之间。精神分裂症高遗传度的特点,使得遗传学研究对于阐明精神分裂症的发病机制尤为重要。2014 年全基因组关联分析 (GWAS) 找到的 108 个精神分裂症的相关基因座,人类对精神疾病的理解向前迈了一大步,许多相关的生物学机制开始浮出水面,如 miR-137 在精神分裂中的作用。
目前用于抗精神分裂症的药物大多是多巴胺受体的阻滞剂,也包括一些五羟色胺受体部分激动剂和拮抗剂。尽管 GWAS 研究为我们理解精神疾病的遗传学机制向前迈了一大步,但近 60 年来,并没有发现新的治疗精神分裂症的有效靶点。一方面,GWAS 信号(指全基因组水平显著性的 SNP 位点)的效应微弱,另一方面 GWAS 多位于非编码区,GWAS 的这些特点使得深入探讨精神分裂症的发病机制和药物研制面临严峻挑战。
miRNA 参与调控精神分裂症
越来越多的研究指出,GWAS 信号是通过调控基因表达来发挥作用的(证据之一为 GWAS 信号富集在染色质开放区域,通过表达 数量性状位点 QTL 调控基因表达等),而 miRNA 作为调控基因表达的重要因素,但在精神分裂症的研究中,除 miR-137 外,其他的 miRNA 却未得到广泛的关注。 但越来越多的证据表明 miRNA 在精神分裂症的发病机制中发挥重要作用:
此前的研究揭示 miRNA 参与精神分裂症。引自:Am J Psychiatry. 2015 .172(11):1141-7.
随着研究的开展,microRNA (miRNA) ——基因表达的调控因子——参与精神分裂症的病因的证据越来越多:(1) miRNA 在脑的发育过程中发挥重要作用;(2) 在死亡后的精神分裂症患者的脑组织中发现了差异表达的 miRNA;(3) miRNA 和 miRNA 的靶基因富集在风险基因区域。
此文在三个层面上研究了 miRNA 在精神分裂症可能发挥的作用:(1) 评估精神分裂症的风险基因是否更可能被 miRNA 调控;(2) 通过基因集富集分析找到能调控精神分裂症风险基因的保守的miRNA;(3) 基因表达分析来系统地描绘 GWAS 和 CNV(拷贝数变异)研究界定的区域中的 miRNA 的特性。
探究 miRNA 结合位点与基因显著程度间的关系
模型构建流程
1. 国际上最大的精神疾病遗传学研究机构精神疾病基因组学会(Psychiatric Genomics Consortium, PGC) 对精神疾病进行过大规模的 GWAS 分析。从 PGC2 下载精神分裂症的 GWAS 汇总统计数据(summary statistics),这套数据包含了接近 10 万对 10 万的疾病对照研究中得到的显著性的位点。
2. 根据编码蛋白质的基因的位置,得到每个基因与精神分裂症相关的 GWAS 信号的汇总 P value。对于每一个基因,上面会有很多个 SNP。这里的 P 值是将一个基因上的多个 SNP 的 P 值汇总成一个 P 值,来代表这个基因在疾病和对照之间的频率上的差异水平。
3. 使用 TargetScan 预测 miRNA 的靶基因;
4. 统计每个基因上 miRNA 的结合位点的数目;
5. 建立线性回归模型,同时将基因与精神分裂症的相关程度和基因的 miRNA 结合位点作为因变量,将基因的长度和基因的 3’-UTR 的长度作为协变量,评估 miRNA 基因调控和精神分裂症的风险基因之间的相关性。
6. 为了验证该模型的特异性, 本文还将如上方法分析了克罗恩病、女性初潮年龄和身高的GWAS 的数据。(克罗恩病是一种免疫系统疾病,他是最早进行 GWAS 研究的疾病,而且GWAS 研究也比较成功,找到了较多的位点;身高的研究涉及的人群也是很大的。)
鉴定精神分裂症相关的 miRNA 及其靶基因
基因集分析流程
1. 精神分裂症相关的数据集:根据千人基因组(1000 Genome Project)的欧洲人群的计算连锁不平衡的区域(LD),分成不同 500Mb 的区间(interval),然后根据显著性水平,将区间分成三种阈值(threshold):1 × 10-5;top 1%;top 5%。
2. miRNA 分析
首先根据来源分成:保守的miRNA、位于精神分裂症 GWAS 位点的 miRNA 、位于精神分裂症相关的 CNV 的 miRNA;
然后利用 TargetScan6.2 分别预测它们的靶基因,得到了三类基因集;
对于每一类 miRNA 的靶基因集与精神分裂症相关的三种基因集分别进行 INRICH 分析(一种进行富集分析的方法,用来探测两个基因集在基因组位置上的重合是否显著),得到三个 P value,将这三个 P value 汇总为一个综合分数(综合分数的计算方法:将 P 值进行 log 转换后连乘),对每一类的 miRNA 的基因集中进行排序,得到排序最高的 miRNA,即为调控精神分裂症风险基因的 miRNA。
3. miRNA 验证研究
对第 2 步中找到的排名靠前的 miRNA,研究其在脑中的表达情况,使用 BrainSpan(一个死亡后的脑数据库,具有不同脑区、不同年龄阶段的脑的表达数据)的数据,可以看到 miRNA 在脑的发育过程中的表达的变化情况、不同时间和不同脑区。同时还进行了这些 miRNA 的靶基因的聚类分析(使用 miRNA 的靶基因谱进行聚类分析,将具有相似靶基因谱的 miRNA 聚到一起)。
miRNA:精神分裂症潜在的关键调控者
结果一:基因跟精神分裂症密切相关
基因上的 miRNA 的结合位点越多,其与精神分裂症的关系越密切。但是这种调控作用没有特异性,在其他的性状也发现了类似的趋势。
结果二:鉴定了富集分析中保守的 miRNA,这些 miRNA 在精神分裂中扮演重要角色
富集分析中保守的 miRNA 的 Top 10 如下:
富集分析中保守的排名前 10 的 miRNA
其中排名第三的 miR-137 是精神分裂症相关研究中受到非常广泛关注的一个,因为它就位于一个显著的 GWAS 信号中。作者选取排名第一的 miR-9-5p 来做后续的验证,此前研究表明,它在神经系统的发育过程中发挥重要作用。
用 Circos 图把它们的靶基因谱绘制出来,如下:
Top10 miRNA 靶基因的 Circos 图
Circos 的圆环代表的是在基因组上的位置,每一个断开的地方是一个染色体,这里只是没有标注染色体编号,最外面一层就是染色体的核型图,上面标注了 miRNA 的靶基因的名字,靠近里面的一层则标注了在这些位置上面的显著水平(这里是散点图,X 轴是基因组上的位置,Y 轴是-log 的 P 值】,最里面的彩色的,每一个环形都表示一个 miRNA 的所有的靶基因在基因组上的分布。
其局部视图如下:
Circos 图局部视图
从局部视图我们可以看到更细致的情况,颜色表示了显著水平,同时我们可以看到聚类情况,这 10 个 miRNA 的靶基因的谱的相似程度,可以看到 miR-9-5p 跟 miR-137 这个明星分子的靶基因谱非常相似,也就从另外一个侧面证明了他推荐的这个 miR-9-5p 在精神分裂症中可能具有非常重要的作用。
结果三:验证了部分精神分裂症相关 miRNA 在胚胎早期发育时期中发挥重要功能
miR-137, miR2682, miR9 在胚胎早期中发挥重要作用
图中的 X 轴表示的是时间,单位是从怀孕后的天数,这些数据都是胎儿的脑组织的表达数据,来自 BrainSpan,不同的颜色表示了不同的脑区,可以看到这三种 miRNA 在胚胎的早期的表达量都非常高,提示它们在胚胎早期发挥重要的作用。
总结 & 反思
miRNA 的研究是最近几年的研究热点,此文为研究 miRNA 在复杂性状的研究中提供了一个比较好的范式,同样地,你可以将这套流程搬迁到你需要探讨的疾病上,看是否可以找到一些比较重要的 miRNA。
批判的眼光
1. 本文所用的 risk gene 是使用了位于 GWAS 信号中的基因,而很多研究指出 risk gene 不一定是 GWAS 信号附近的基因,所以在界定 risk gene 时仍需要斟酌,可以参考 SMR (一种孟德尔随机化方法,点击此处可查看更详细解读)所提供的精神分裂症的基因,或者自己使用 SMR 界定靶基因,同时 QTL 调控的基因也是不错的选择;
2. miRNA 在本文中所起的作用,是调控 risk gene,而我们知道 miRNA 的发挥作用seed region 是非常重要的区域,而作者似乎并没有做到这么精细,这也是需要改进的地方;
3. 关于靶基因的预测问题,预测的靶基因之间证据程度是有不同的,作者这里是一概而论,虽然后面做验证的时候引入了其他的证据,不过可能靶向程度也考虑进来应该是更全面的。
关于文章作者
本文通讯作者为丹麦奥胡斯大学(Aarhus University)生物医学部的副教授 Manuel Mattheisen,他是 PGC 的成员之一。
Psychiatric Genomics Consortium 是为了研究精神疾病的遗传学机制而成立的全球合作小组,主要目的是为了扩大样本量,期望可以找到更多的全基因组显著性的位点。目前有来自 20 多个国家的 80 个研究机构中的 300 位研究人员参与其中,根据疾病不同,分为 9 个项目组,分布是精神分裂症组、抑郁障碍组、双相情感障碍组、自闭症谱系组等。其中精神分裂症组开展的最早,样本量最多,目前已有 8 万精神分裂症患者的基因组数据。
From Epigenetics表观遗传学