【佳學基因檢測】多發(fā)性硬化癥基因檢測
基因檢測導讀:
多發(fā)性硬化癥(MS)是一種中樞神經系統(tǒng)自身免疫性疾病。根據《多發(fā)性硬化癥基因檢測數據集》,中國約有160萬到400萬人受此疾病困擾,全球范圍內約有800萬人受此疾病影響。女性患MS的可能性是男性的兩倍,部分原因是兩性之間激素和遺傳對免疫系統(tǒng)的影響存在差異。激活的T細胞淋巴細胞介導的炎癥通常會導致神經元軸突脫髓鞘,從而引發(fā)MS的神經癥狀,并導致腦損傷。由于MS的早期癥狀往往輕微且多變,這些癥狀由環(huán)境觸發(fā)的CD4+自身反應性T細胞引起,且需要數年時間才能發(fā)展成明顯的神經系統(tǒng)表型的慢性疾病狀態(tài),因此早期識別MS非常困難。盡管先進的成像技術和腦脊液/血液生物標志物可以檢測到MS的進展,這些策略通常需要初始臨床事件作為觸發(fā)條件,從而限制了早期檢測的可能性。如果MS沒有得到及時治療,神經損傷將變得不可逆轉。如果能夠在早期階段發(fā)現MS,許多新療法在臨床應用方面已有顯著進展。因此,發(fā)現新的風險標志物和評估MS的相關知識對于早期檢測至關重要。
初步研究表明,MS存在非環(huán)境性的多基因遺傳風險。全基因組關聯研究(GWAS)徹底改變了多發(fā)性硬化癥基因檢測項目組對免疫系統(tǒng)在疾病中作用的認識;然而,這些研究僅解釋了約四分之一的遺傳風險。來自MS遺傳學雙胞胎研究的遺傳力估計表明,同卵雙胞胎的一致率為25-30%,而異卵雙胞胎的一致率較低,這表明多種遺傳因素和環(huán)境影響對疾病發(fā)展存在復雜的相互作用。為了更好地理解這些罕見的多基因對MS的影響,全基因組/外顯子組測序已開始識別導致疾病的罕見變異。基于這些遺傳學見解構建的基因網絡將有助于建立系統(tǒng)風險評估,同時在個性化醫(yī)療策略中擴展發(fā)現其他導致MS的罕見遺傳變異的途徑。
通過發(fā)現MS發(fā)生和發(fā)展的新機制,基因檢測有可能開發(fā)出新的檢測方法和靶向治療。這一點尤為重要,因為多發(fā)性硬化癥基因檢測項目組知道GWAS隊列缺乏種族多樣性,這些研究中使用的多重假設檢驗的多樣性不足。多發(fā)性硬化癥基因檢測項目組之前已展示了解決GWAS中罕見變異的基因組機制的能力,這些變異因種族多樣性而缺乏動力,因此多發(fā)性硬化癥基因檢測項目組提出了同樣的系統(tǒng)生物學策略來研究MS病因,以進一步了解罕見和常見的共同遺傳對疾病的貢獻。
多發(fā)性硬化癥致病基因鑒定基因解碼中提出的流程提供了一種利用與MS相關的GWAS單核苷酸多態(tài)性(SNP)的方法,通過研究連鎖不平衡(LD)SNP的機制來發(fā)現途徑和交叉興趣點。研究了LD基因突變序列及之前與MS相關的研究中的基因,以確定有害的編碼序列基因突變序列及其對基因調控的影響(圖1)。因此,多發(fā)性硬化癥致病基因鑒定基因解碼為復雜剖析常見和罕見變異及其之間的系統(tǒng)通路相互作用提供了一個框架,這些相互作用導致了MS的多基因特性。
圖1:用于識別和研究與多發(fā)性硬化癥有關的基因/變異的工作流程。
如何進行多發(fā)性硬化癥的致病基因鑒定基因解碼?
找出多化性硬化病的致病基因和突變位點
對于所有提及“多發(fā)性硬化癥”的性狀,多發(fā)性硬化癥基因檢測項目組從 EBI/NHGRI GWAS 目錄 中提取了主要 SNP。然后使用 SNAP和 0.8 相關性截止值分析所有 LD SNP 的主要 SNP,并刪除冗余基因突變序列。來自多發(fā)性硬化癥嚴重程度評分 (MSSS) 關聯 ) 的基因和來自 ClinVar的“多發(fā)性硬化癥”下列出的所有基因/基因突變序列均被納入列表。然后使用 STRING對所有基因進行評估,使用基因本體 (GO) 富集來分析分子功能、KEGG 通路和 PMID 基因關聯。
蛋白質結構與功能變化分析
使用PolyPhen2 、SIFT 和 Provean工具對來自 ClinVar 和 gnomAD 的所有變異進行錯義功能評估,評估每個具有錯義變異的基因。至少被其中一種工具鑒定為有功能的變異被納入多發(fā)性硬化癥基因檢測項目組的候選基因列表 (表格1) 并進行多發(fā)性硬化癥基因檢測項目組之前描述的深度序列-結構-功能分析。通過 I-TASSER為細胞內和細胞外結構域生成 CD6 蛋白模型,然后設計跨膜螺旋、合并模型,并使用 YASARA 將蛋白質嵌入 PEA 跨膜中。使用指定為 1 的每個工具的破壞性調用,然后按照以下方式生成每個錯義基因突變序列的基因突變序列分數: (PolyPhen2 + SIFT + Proven + 保守性分數 ) × (21 個密碼子線性基序保守性)。對于保守性分數為 1 或更高的基因突變序列,將來自 gnomAD 的等位基因計數乘以上述分數以計算群體影響。
表1:根據 GWAS、eQTL、ClinVar 和文獻,查找多發(fā)性硬化癥的主要基因
基因 | 納入理由 | 候選位點 | 先導位點SNP | 與先導SNP 的距離 | R2? | 特征 | P 值 | OR | 參考文獻 | 權重 |
CD6† | PolyPhen2/SIFT | JX112MS30562 | rs17824933 | 15574 | 0.943 | 多發(fā)性硬化癥 | 4.00E-09 | 1.18 | 19525953 | 高的 |
CD6† | Provean/SIFT | JX207MS4233 | rs17824933 | 24852 | 0.836 | 多發(fā)性硬化癥 | 4.00E-09 | 1.18 | 19525953 | 高的 |
EVI5† | Provean/SIFT | JX118MS8092 | rs11808092 | 0 | 1 | EB 病毒核抗原 1 IgG 水平或多發(fā)性硬化癥 | 2.00E-08 | 0 | 26819262 | 高的 |
DKKL1† | Provean/SIFT | JX230MS3759 | rs2303759 | 0 | 1 | 多發(fā)性硬化癥 | 5.00E-09 | 1.11 | 21833088 | 高的 |
HNRNPA1† | 臨床研究 | JXMS | — | — | — | — | — | — | — | 高的 |
NR1H3† | 臨床研究 | JXMS | — | — | — | — | — | — | — | 高的 |
FAM69A | 脛神經基因表達譜 | JXMS | rs6604026 | — | — | 多發(fā)性硬化癥 | 8.00E-06 | 1.15 | 17660530 | 高的 |
HLA-DRB1* | 脛神經基因表達譜 | JX927MS980 | rs9271640 | 18291 | 0.861 | 多發(fā)性硬化癥中的寡克隆帶狀態(tài) | 5.00E-12 | 1.56 | 25616667 | 高的 |
HLA-DRB5* | 脛神經 / 脾臟 eQTL | JXMS | rs9271640 | — | — | 多發(fā)性硬化癥中的寡克隆帶狀態(tài) | 5.00E-12 | 1.56 | 25616667 | 高的 |
KIF1B‡ | 脛神經基因表達譜 | JX十MS | rs10492972 | — | — | 多發(fā)性硬化癥 | 3.00E-10 | 1.34 | 18997785 | 高的 |
LINC00886 | 脛神經 / 脾臟 eQTL | JX867MS436 | rs12638253 | 91510 | 0.846 | 多發(fā)性硬化癥(嚴重程度) | 2.00E-06 | 0 | 19010793 | 高的 |
METTL15P1 | 脛神經基因表達譜 | JXMS | rs12638253 | — | — | 多發(fā)性硬化癥(嚴重程度) | 2.00E-06 | 0 | 19010793 | 高的 |
NAP1L4P1 | 脛神經基因表達譜 | JX十五MS | rs12025416 | — | — | 多發(fā)性硬化癥 | 1.00E-07 | 1.45 | 21244703 | 高的 |
PCDHGC3 | 脛神經基因表達譜 | JX十九MS | rs1062158 | — | — | 多發(fā)性硬化癥 | 2.00E-06 | 1.08 | 21833088 | 高的 |
RGS14 | 脛神經基因表達譜 | JXMS | rs4075958 | — | — | 多發(fā)性硬化癥 | 5.00E-07 | 1.09 | 21833088 | 高的 |
RP11–10L12.2 | 脛神經基因表達譜 | JX十九MS | rs228614 | — | — | 多發(fā)性硬化癥 | 1.00E-07 | 1.09 | 21833088 | 高的 |
RPL37 | 脛神經基因表達譜 | JX十七MS | rs6896969 | — | — | 多發(fā)性硬化癥 | 2.00E-07 | 1.1 | 19525953 | 高的 |
TIPARP | 脛神經基因表達譜 | JX289MS3226 | rs12638253 | 101871 | 0.875 | 多發(fā)性硬化癥(嚴重程度) | 2.00E-06 | 0 | 19010793 | 高的 |
TMEM87B | 脛神經基因表達譜 | JX689MS6969 | rs17174870 | 148190 | 0.821 | 多發(fā)性硬化癥 | 1.00E-08 | 1.11 | 21833088 | 高的 |
TRIM2 | 脛神經基因表達譜 | JX687MS9489 | rs12644284 | 0 | 1 | 多發(fā)性硬化癥 | 4.00E-06 | 2.04 | 21654844 | 高的 |
FAM213B | 全血eQTL | JX十八MS | rs4648356 | — | — | 多發(fā)性硬化癥 | 1.00E-14 | 1.14 | 21833088 | 高的 |
FCRL3 | 全血/脾臟 eQTL | JXMS | rs3761959 | — | — | 多發(fā)性硬化癥 | 3.00E-06 | 1.08 | 21833088 | 高的 |
MERTK | 全血eQTL | JXMS | rs17174870 | — | — | 多發(fā)性硬化癥 | 1.00E-08 | 1.11 | 21833088 | 高的 |
MMEL1 | 全血/脾臟 eQTL | JXMS | rs4648356 | — | — | 多發(fā)性硬化癥 | 1.00E-14 | 1.14 | 21833088 | 高的 |
AHI1 | 脾臟基因座 | JXMS | rs11154801 | — | — | 多發(fā)性硬化癥 | 1.00E-13 | 1.13 | 21833088 | 高的 |
TBKBP1 | 順式eQTL 1b | JX479MS4048 | rs8070463 | 5763 | 0.837 | 多發(fā)性硬化癥 | 1.00E-07 | 1.15 | 22190364 | 高的 |
DEXI | 順式eQTL 1b | JX649MS8169 | rs6498169 | 0 | 1 | 多發(fā)性硬化癥 | 4.00E-06 | 1.14 | 17660530 | 高的 |
SEZ6L2 | 順式eQTL 1b | JX102MS4 | rs34286592 | 6058 | 0.929 | 多發(fā)性硬化癥 | 5.00E-07 | 1.16 | 27386562 | 高的 |
PGD | 順式eQTL 1b | JX373MS7155 | rs10492972 | 106667 | 1 | 多發(fā)性硬化癥 | 3.00E-10 | 1.34 | 18997785 | 高的 |
CLTB | 順式eQTL 1b | JX117MS46443 | rs4075958 | 13794 | 0.927 | 多發(fā)性硬化癥 | 5.00E-07 | 1.09 | 21833088 | 高的 |
RMND5B | 順式eQTL 1b | JX117MS46443 | rs4075958 | 13794 | 0.927 | 多發(fā)性硬化癥 | 5.00E-07 | 1.09 | 21833088 | 高的 |
TMED9 | 順式eQTL 1b | JX117MS46443 | rs4075958 | 13794 | 0.927 | 多發(fā)性硬化癥 | 5.00E-07 | 1.09 | 21833088 | 高的 |
LRRC34 | PolyPhen | JX109MS36600 | rs10936599 | 22484 | 0.956 | 多發(fā)性硬化癥 | 7.00E-07 | 1.1 | 21833088 | 中等的 |
MPV17L2 | Provean | JX874MS628 | rs874628 | 0 | 1 | 多發(fā)性硬化癥 | 1.00E-08 | 1.11 | 21833088 | 中等的 |
IKZF2 | RegDB 1b TF | JX479MS4048 | rs8070463 | 5763 | 0.837 | 多發(fā)性硬化癥 | 1.00E-07 | 1.15 | 22190364 | 中等的 |
HES1 | RegDB 1b TF | JX649MS8169 | rs6498169 | 0 | 1 | 多發(fā)性硬化癥 | 4.00E-06 | 1.14 | 17660530 | 中等的 |
TGIF1 | RegDB 1b TF | JX102MS4 | rs34286592 | 6058 | 0.929 | 多發(fā)性硬化癥 | 5.00E-07 | 1.16 | 27386562 | 中等的 |
RGS1 | 順式eQTL 1d | JX281MS6305 | rs1323292 | 16752 | 1 | 多發(fā)性硬化癥 | 2.00E-08 | 1.12 | 21833088 | 中等的 |
CDK2AP1 | 順式eQTL 1d | JX655MS293 | rs1790100 | 128320 | 0.894 | 多發(fā)性硬化癥 | 7.00E-07 | 1.11 | 19525953 | 中等的 |
CD40 | 順式eQTL 1d | JX242MS5752 | rs2425752 | 0 | 1 | 多發(fā)性硬化癥 | 5.00E-10 | 1.11 | 21833088 | 中等的 |
MVP | 順式eQTL 1d | JX993MS8630 | rs34286592 | 16628 | 1 | 多發(fā)性硬化癥 | 5.00E-07 | 1.16 | 27386562 | 中等的 |
PRRT2 | 順式eQTL 1d | JX993MS8630 | rs34286592 | 16628 | 1 | 多發(fā)性硬化癥 | 5.00E-07 | 1.16 | 27386562 | 中等的 |
CDC37 | 順式eQTL 1d | JX129MS78984 | rs8112449 | 827 | 1 | 多發(fā)性硬化癥 | 1.00E-06 | 1.08 | 21833088 | 中等的 |
GABPA | RegDB 2a TF | JX562MS35845 | rs4075958 | 13528 | 0.964 | 多發(fā)性硬化癥 | 5.00E-07 | 1.09 | 21833088 | 中等的 |
CTCF | RegDB 2a TF | JX798MS6874 | rs17594362 | 10364 | 0.887 | 多發(fā)性硬化癥 | 4.00E-06 | 1.11 | 21833088 | 中等的 |
EGR1 | RegDB 2a TF | JX128MS89006 | rs4902647 | 6372 | 0.967 | 多發(fā)性硬化癥 | 9.00E-12 | 1.11 | 21833088 | 中等的 |
YY1 | RegDB 2a TF | JX118MS78602 | rs10411936 | 6778 | 1 | 多發(fā)性硬化癥 | 2.00E-07 | 1.16 | 22190364 | 中等的 |
GFI1‡ | RegDB 2a TF | JX617MS84580 | rs10492972 | 82616 | 0.802 | 多發(fā)性硬化癥 | 3.00E-10 | 1.34 | 18997785 | 中等的 |
SPI1 | RegDB 2a TF | JX298MS4920 | rs1323292 | 3774 | 1 | 多發(fā)性硬化癥 | 2.00E-08 | 1.12 | 21833088 | 中等的 |
CLOCK | RegDB 2a TF | JX126MS24433 | rs2425752 | 21267 | 1 | 多發(fā)性硬化癥 | 5.00E-10 | 1.11 | 21833088 | 中等的 |
ARNTL | RegDB 2a TF | JX126MS24433 | rs2425752 | 21267 | 1 | 多發(fā)性硬化癥 | 5.00E-10 | 1.11 | 21833088 | 中等的 |
BACH1 | RegDB 2a TF | JX791MS40028 | rs6984045 | 284668 | 1 | 多發(fā)性硬化癥 | 2.00E-06 | 1.59 | 19525955 | 中等的 |
ASAP1 | RegDB 2a 基因內含子中的 SNP | JX791MS40028 | rs6984045 | 284668 | 1 | 多發(fā)性硬化癥 | 2.00E-06 | 1.59 | 19525955 | 低的 |
CDIPT-AS1 | RegDB 1b 基因內含子中的 SNP | JX102MS4 | rs34286592 | 6058 | 0.929 | 多發(fā)性硬化癥 | 5.00E-07 | 1.16 | 27386562 | 低的 |
CLEC16A | RegDB 1b 基因內含子中的 SNP | JX649MS8169 | rs6498169 | 0 | 1 | 多發(fā)性硬化癥 | 4.00E-06 | 1.14 | 17660530 | 低的 |
CLECL1 | RegDB 2a 基因內含子中的 SNP | JX104MS92165 | rs10466829 | 9870 | 0.935 | 多發(fā)性硬化癥 | 1.00E-08 | 1.09 | 21833088 | 低的 |
EPS15L1 | RegDB 2a 基因內含子中的 SNP | JX118MS78602 | rs10411936 | 6778 | 1 | 多發(fā)性硬化癥 | 2.00E-07 | 1.16 | 22190364 | 低的 |
KPNB1 | RegDB 1b 基因內含子中的 SNP | JX479MS4048 | rs8070463 | 5763 | 0.837 | 多發(fā)性硬化癥 | 1.00E-07 | 1.15 | 22190364 | 低的 |
SLC12A5 | RegDB 2a 基因內含子中的 SNP | JX126MS24433 | rs2425752 | 21267 | 1 | 多發(fā)性硬化癥 | 5.00E-10 | 1.11 | 21833088 | 低的 |
AFF3 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs12471490 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 3.15 × 10−5 | 0.56 | 21654844 | 低的 |
ANAPC1 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs4848821 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 1.44 × 10−5 | 0.8 | 21654844 | 低的 |
ASXL2 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs10178552 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 4.76 × 10−5 | −0.41 | 21654844 | 低的 |
CDH13 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs8047176 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 6.90 × 10−5 | 1.58 | 21654844 | 低的 |
CDHR3 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs193806 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 5.53 × 10−5 | 0.63 | 21654844 | 低的 |
CRTAC1 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs11189446 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 2.05 × 10−5 | 0.54 | 21654844 | 低的 |
CTNND2 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs11750073 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 6.49 × 10−5 | 1.99 | 21654844 | 低的 |
FHIT | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs1735457 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 1.55 × 10−5 | 2.85 | 21654844 | 低的 |
GPC5 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs17430373 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 3.12 × 10−5 | 4.19 | 21654844 | 低的 |
GPR158 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs7071606 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 4.25 × 10−5 | 3.59 | 21654844 | 低的 |
GRIN2A | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs1448239 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 2.99 × 10−5 | 1.65 | 21654844 | 低的 |
HACE1 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs7741733 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 1.97 × 10−5 | 1.69 | 21654844 | 低的 |
IFNA10 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs10811505 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 2.56 × 10−5 | −0.50 | 21654844 | 低的 |
IFNA16 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs1820314 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 2.13 × 10−5 | −0.50 | 21654844 | 低的 |
IFNA17 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs9298814 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 2.30 × 10−5 | −0.50 | 21654844 | 低的 |
JAZF1 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs735664 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 5.97 × 10−5 | 1.65 | 21654844 | 低的 |
KCNMA1 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs7087337 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 7.47 × 10−5 | 2 | 21654844 | 低的 |
KLHL9 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs8729 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 3.85 × 10−5 | −0.49 | 21654844 | 低的 |
LOC100289506 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs7789940 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 6.04 × 10−6 | 1.87 | 21654844 | 低的 |
MICB | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs2855814 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 2.09 × 10−5 | 0.4 | 21654844 | 低的 |
NKD1 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs12596811 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 1.80 × 10−5 | 2.43 | 21654844 | 低的 |
NOS1AP | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs12403202 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 7.83 × 10−5 | 0.63 | 21654844 | 低的 |
NPSR1 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs17170015 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 4.65 × 10−5 | −0.48 | 21654844 | 低的 |
OR6T1 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs1476203 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 4.43 × 10−5 | 0.65 | 21654844 | 低的 |
OR8D4 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs7942047 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 8.68 × 10−5 | 0.67 | 21654844 | 低的 |
PDZD2 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs161522 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 4.35 × 10−5 | 1.62 | 21654844 | 低的 |
PLCG2 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs7185362 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 4.48 × 10−5 | 1.7 | 21654844 | 低的 |
POPDC3 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs11962089 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 8.33 × 10−6 | −0.69 | 21654844 | 低的 |
PPARGC1A | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs8192678 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 5.94 × 10−5 | 1.72 | 21654844 | 低的 |
PRDM2 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs4344326 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 5.82 × 10−5 | 4.26 | 21654844 | 低的 |
PSD3 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs7015570 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 3.76 × 10−5 | −0.60 | 21654844 | 低的 |
PTPRD | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs10977017 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 1.02 × 10−5 | 1.67 | 21654844 | 低的 |
RBM20 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs1832745 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 2.02 × 10−5 | −0.45 | 21654844 | 低的 |
RELN | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs10487166 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 5.33 × 10−5 | 0.45 | 21654844 | 低的 |
STX8 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs7219526 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 7.14 × 10−5 | 0.64 | 21654844 | 低的 |
YWHAG | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs17149161 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 5.83 × 10−6 | 1.87 | 21654844 | 低的 |
ZFPM2 | 多發(fā)性硬化癥嚴重程度評分(MSSS) | JXMS | rs10505082 | — | — | 多發(fā)性硬化癥嚴重程度評分(MSSS) 協會 | 2.45 × 10−5 | 0.62 | 21654844 | 低的 |
†基因用匕首標記的位點有額外的蛋白質影響分析圖 3。
*在 eQTL 分析中更詳細地細分圖 5。
‡單個 LD 塊 (rs10492972) 中描述的多個數據集的連接圖 6。
基因表達
每種基因的表達數據均取自 FANTOM或小鼠單細胞數據庫。使用 Morpheus 在線工具可視化表達,并使用以下公式將表達水平轉換為 z 分數:(樣本值 - 所有組織中基因的平均值)/ 所有組織中基因值的標準差。對于單細胞分析,確定表達的基因是基于計數 >10 的基因。計數 >10 的細胞按所有其他基因聚類,并與計數 <10 的細胞進行比較,計算表達水平的 log2 倍數變化和計數 >10 的細胞百分比。
非編碼基因突變序列基因突變
首先通過 RegulomeDB 工具評估所有 LD SNP 的 GWAS多發(fā)性硬化癥(MS)相關區(qū)域,整理出發(fā)生改變的轉錄因子 (TF) 結合位點以及 TF 結合附近的基因。使用 hg38 注釋整理出在 LD 區(qū)塊 ± 50,000 kB 內發(fā)現的完整基因列表。從 GTEx 中提取表達數量性狀基因座 (eQTL) 數據,并將其標準化為具有 eQTL 的組織內總基因數量(具有 eQTL 的多發(fā)性硬化癥(MS)基因百分比/[組織 eQTL/所有組織中的平均 eQTL]),并查詢 LD 區(qū)塊基因以查找在脛神經、全血或脾臟數據集中發(fā)現的任何作為 eQTL 的 SNP。 LD區(qū)塊注釋堿基的 ChromHMM 模型來自 Roadmap Epigenomics。然后使用 SNAP(截止值為 0.8 R 2)重新評估頂級功能注釋 SNP 的 LD,隨后提取 GWAS 數據庫中注釋的所有 LD SNP,以確定 LD 區(qū)塊的其他特征關聯。
對基因進行排序
高優(yōu)先級基因被注釋為在 2/3 種工具(PolyPhen2、Provean 或 SIFT)中具有功能預測結果的錯義變異、在 ClinVar 中具有多個映射變異或具有基因 eQTL 調控的 GWAS 基因座。中等優(yōu)先級基因是在一種工具中具有功能預測結果的錯義變異或 RegulomeDB 優(yōu)先考慮的 TF 結合變異。低優(yōu)先級基因是定位在功能性 TF 結合位點附近而??沒有 eQTL 的基因或通過 多發(fā)性硬化癥嚴重程度評分(MSSS) 關聯識別的不屬于上述兩組的基因。
多發(fā)性硬化癥的發(fā)生如何受基因的影響?
MS 基因列表
從 GWAS 數據庫中,有 218 個主要 SNP 與以下一項或多項相關:Epstein-Barr 病毒核抗原 1 IgG 水平或多發(fā)性硬化癥、多發(fā)性硬化癥中的免疫球蛋白 G 指數水平、多發(fā)性硬化癥、多發(fā)性硬化癥(發(fā)病年齡)、多發(fā)性硬化癥(OCB 狀態(tài))、多發(fā)性硬化癥(嚴重程度)、多發(fā)性硬化癥或肌萎縮側索硬化癥、多發(fā)性硬化癥-腦谷氨酸水平、多發(fā)性硬化癥中的寡克隆帶狀態(tài)、多發(fā)性硬化癥中的復發(fā)以及多發(fā)性硬化癥對干擾素 β 的反應。從這些主要 SNP 中,有 3,505 個 SNP 處于 LD 中。其中 8 個被識別為 RegulomeDB 評分為 1b(eQTL 和 TF 結合預測變化,位點處已知多個 ENCODE TF),12 個被識別為 2a(TF 結合預測變化,位點處已知多個 ENCODE TF,包括與改變的結合位點匹配的 ENCODE),這表明在 LD 塊內,多個 SNP 可能會改變基因調控。
根據上文討論的多發(fā)性硬化癥(MS)文獻、ClinVar 和 GWAS 相關基因位點圖譜對基因進行分析,得到了 96 個非重復的候選基因(表1)。其中,32 個為高優(yōu)先級(33%),20 個為中等優(yōu)先級(21%),44 個為低優(yōu)先級(46%)。在 43 個具有 R 2數據的預測功能性 SNP 中,11 個的值范圍為 0.802 至 0.894(26%,0.8 為 LD 映射的截止值),11 個的范圍為 0.927–0.967(26%),20 個的值為 1(47%,與人類群體完全相關)。
已識別基因的多發(fā)性硬化癥(MS)通路
開始了解基因的通路和網絡表1,多發(fā)性硬化癥基因檢測項目組對 96 個基因使用了 STRING 工具,返回了 89 個映射基因/節(jié)點(圖 2)。網絡中的連接是實驗確定的相互作用(19 個連接)、共表達(22 個連接)、注釋數據庫(22 個連接)和文本挖掘(42 個連接)。蛋白質-蛋白質相互作用的數量顯著豐富于隨機預期(P值 2e-7),表明基因列表中存在重疊的生物學途徑。這突出表明,在表1并不是隨機的,而是通過重疊的生物機制和途徑聚集在一起的。
圖 2:STRING 網絡和基因本體論 (GO) 多發(fā)性硬化癥基因富集。使用以下基因創(chuàng)建網絡表1. 顯著富集的 GO 術語顯示為在整個基因組中與術語總數映射的基因數量以及每個基因的錯誤發(fā)現率 (FDR)。
在 89 個已映射基因列表中顯著富集的 GO 術語網絡包括:11 個(12.4%)為 TF(錯誤發(fā)現率,FDR 為 4e-4),6 個(6.7%)與自身免疫性甲狀腺疾病(FDR 2e-05)相關,4 個(4.5%)與 RIG-1 樣受體信號傳導(FDR 1e-2)相關,4 個(4.5%)與自然殺傷細胞活化(FDR 8e-3)相關。此外,單純皰疹感染(7 個基因,FDR 2e-3)和 Epstein-Barr 病毒感染(6 個基因,FDR 1e-2)基因也有富集,此前有研究表明這些基因與多發(fā)性硬化癥(MS)有關。將這些結果與文獻進行關聯,可證實自身免疫性甲狀腺疾病與多發(fā)性硬化癥(MS)患者及其一級親屬共病;表達 NKG2D 受體的自然殺傷細胞可能對表達 NKG2D 配體的成體少突膠質細胞和胎兒星形膠質細胞具有細胞毒性,從而導致多發(fā)性硬化癥(MS)中的病變;RIG-1 樣受體通路的 TBKBP1 在脂肪細胞和神經元中高表達,且多發(fā)性硬化癥(MS)中的抗 DNA 抗體升高??傮w而言,這表明基于網絡分析,MS 基因網絡豐富了多層次的免疫和病毒反應生物學。
錯義基因突變序列的分析
對于 GWAS,錯義變異最容易進行功能分析,因此也是多發(fā)性硬化癥基因檢測項目組了解多發(fā)性硬化癥(MS)遺傳機制的起點。從 GWAS 的 LD SNP 中,多發(fā)性硬化癥基因檢測項目組在 12 種蛋白質(CD6、CLEC2D、DKKL1、EVI5、FCRL3、IL7R、LRRC34、MANBA、MMEL1、MPV17L2、SCO2、TNFRSF1A)中發(fā)現了 15 個錯義 SNP。在 15 個錯義變異中,有 8 個在 PolyPhen2/Provean/SIFT 中被預測為良性,一個在 PolyPhen 2 中可能是有害的,一個在 PolyPhen2 中可能是有害的而在 SIFT 中是有害的,一個在 Provean 中是有害的,一個在 PolyPhen2 中可能是有害的而在 SIFT 中是有害的,三個在 Provean 中是有害的而在 SIFT 中是有害的(表 2)。此外,ClinVar 中的兩種蛋白質具有與多發(fā)性硬化癥(MS)相關的錯義基因突變序列,即 NR1H3 和 HNRNPA1。多發(fā)性硬化癥基因檢測項目組使用多發(fā)性硬化癥基因檢測項目組的基因突變序列分析工具分析了 GWAS 中的三種蛋白質(CD6、EVI5、DKKL1),其中至少有兩種工具報告了破壞性預測,以及 ClinVar 中的兩種蛋白質(NR1H3、HNRNPA1)(圖 3,A – C)。
表 2.錯義變異分析
基因(基因突變序列) | PolyPhen2 | Provean | SIFT |
---|---|---|---|
CD6 (T217M) | 大概 | 中性的 | 破壞 |
EVI5 (Q612H) | 良性 | 有害的 | 破壞 |
CD6 (G606S) | 良性 | 有害的 | 破壞 |
DKKL1(M109R) | 良性 | 有害的 | 破壞 |
LRRC34(L241I) | 大概 | 中性的 | 容忍 |
DKKL1(E214K) | 可能 | 中性的 | 破壞 |
MPV17L2 (M72V) | 良性 | 有害的 | 容忍 |
TNFRSF1A (R121Q) | 可能 | 中性的 | 容忍 |
DKKL1(G187S) | 良性 | 中性的 | 容忍 |
SCO2(R20P) | 良性 | 中性的 | 容忍 |
MANBA (T701M) | 良性 | 中性的 | 容忍 |
MMEL1 (M518T) | 良性 | 中性的 | 容忍 |
CLEC2D (L23V) | 良性 | 中性的 | 容忍 |
IL7R (T244I) | 良性 | 中性的 | 容忍 |
FCRL3(N28D) | 良性 | 中性的 | 容忍 |
圖 3.來自全基因組關聯研究 (GWAS) 和 ClinVar 的多發(fā)性硬化癥 CD6、EVI5、DKKL1、NR1H3 和 HNRNPA1 錯義變異。A :對每個基因 (CD6、EVI5、DKKL1、NR1H3、HNRNPA1) 進行的深度密碼子進化分析,物種數量顯示在括號中,注釋域顯示在下方。B :來自 ClinVar(良性 = 黃色、致病 = 紅色、意義不明確的變異 VUS = 洋紅色)和 gnomAD(灰色)的所有變異的排名。C :使用 gnomAD 等位基因計數按變異得分對僅位于保守或選擇位點的變異進行綜合影響。D –G:CD6,右上角所有 gnomAD 變異對 CD6 的相對預測影響,標識出 T217M 的影響最大 ( D )。E:位點 217 附近的氨基酸保守,該位點位于潛在磷酸化位點的中間。F :嵌入脂質膜(青色)內的 CD6 模型,其保守性用 ConSurf 著色(黃色 = 疏水性保守,藍色 = 堿性保守,紅色 = 酸性保守,綠色 = 極性保守,灰色 = 不保守),右側為位點 217 的放大視圖。G:CD6 的另一個連鎖不平衡 (LD) 錯義單核苷酸多態(tài)性 (SNP),在氨基酸 606 附近顯示無或弱保守性。H : EVI5 ,位點 623 周圍的氨基酸保守,在整個進化過程中發(fā)現多種氨基酸。I :DKKL1,氨基酸 109 周圍的保守性,沒有保守性。J :NR1H3,位點 415的ClinVar 基因突變序列,位于蛋白質的高度保守區(qū)域。K:HNRNPA1,使用多種工具和多發(fā)性硬化癥基因檢測項目組的保守分析評估該基因的所有 ClinVar 基因突變序列。
對于這五種蛋白質中的每一種,多發(fā)性硬化癥基因檢測項目組都在其基因中確定了高度保守和密碼子選擇的關鍵位點(圖3A),結合 PolyPhen2、Provean 和 SIFT 對 ClinVar 和 gnomAD 工具中發(fā)現的每種變異的預測 (圖3B),代表了超過 130,000 個已測序個體。基于使用多種工具進行的保守性分析,所有五個基因內的變異都已預測了功能結果 (圖3B),其中大多數變異都出現在罕見頻率水平,這表明在將等位基因計數納入指標時,得分沒有提高(圖3C)。EVI5 有兩個最常見的潛在破壞性變異,rs143611208 (I343T) 和 rs140780079 (I429T),但迄今為止尚未對這些變異進行研究,很可能是由于它們在非芬蘭高加索人中的等位基因頻率較低(rs143611208 在 0.1% 高加索人中,其中阿什肯納茲猶太人最高為 1.8%,rs140780079 在 0% 高加索人中,其中東亞人最高為 1.6%)。這兩個變異在進化上都是 100% 保守的,并且在所有使用的工具中都有破壞性預測。NR1H3 (R415Q) 中的 ClinVar 致病注釋變異 rs61731956 是唯一已知的與所有五個基因都有等位基因計數的疾病相關變異,并且有強有力的保守性證據(圖3C)。
深入研究這五個基因的疾病相關錯義變異(圖 3, D – K ) 多發(fā)性硬化癥基因檢測項目組首先對 CD6 進行評估。CD6 T217M (rs11230562) 的綜合得分為 89,753,這源于 PolyPhen2 和 SIFT 中的破壞性預測、高于平均值的 −0.6 的 dN-dS 值、位點周圍氨基酸的高度保守性以及蘇氨酸上的潛在 CDK 磷酸化位點 (圖3E)。43% 的阿什肯納茲猶太人存在該變異,與多發(fā)性硬化癥(MS)的 rs11230562 領先 SNP 的 R 2相關性為 0.943。CD6 上的 T217 位點預計暴露在表面,靠近多個其他保守氨基酸(圖3F)。與 rs11230562 存在 LD 的另一個潛在功能性錯義基因突變序列是 rs2074233 (CD6 G60S),但該位點在該區(qū)域沒有保守性或選擇性(圖3G)。
另外兩個來自 LD SNPs 的錯義基因突變序列具有多個破壞性預測,EVI5 Q623H(圖3H) 和 DKKL1 M109R (圖3),保守性較低,周圍保守氨基酸很少。NR1H3 R415Q 基因突變序列的多發(fā)性硬化癥(MS)關聯最近受到爭議 ( 45 ),但預測該基因突變序列在 PolyPhen2、Provean 和 SIFT 中是有害的,在多發(fā)性硬化癥基因檢測項目組分析的 NR1H3 的 199 個物種序列中 100% 保守,并且附近有許多其他氨基酸具有高度保守性 (圖3J),表明該變異具有功能性。HNRNPA1 與多發(fā)性硬化癥(MS)自身抗原相關,ClinVar 包含注釋為良性、致病性和意義不明確的變異,其中變異 P275S 和 K277N 具有最高的功能預測(圖3K)。多發(fā)性硬化癥基因檢測項目組對每個基因的保守性分析可以在多發(fā)性硬化癥基因檢測項目組的 figshare 頁面上找到,從而可以對其他人/未來工作中發(fā)現的其他變異位點進行額外分析。從高度保守區(qū)域的突變導致多發(fā)性硬化癥(MS)表型這一基本假設開始,這將表明 GWAS 中 LD 區(qū)塊內的其他非編碼變異與多發(fā)性硬化癥(MS)關聯的大多數 LD 區(qū)塊有關,而不是錯義變異。
MS 基因表達
分析多發(fā)性硬化癥(MS)相關基因組區(qū)域的 LD 區(qū)塊中的錯義變異幾乎無法識別導致病理的蛋白質通路和細胞類型。因此,多發(fā)性硬化癥基因檢測項目組接下來使用多個表達數據庫來研究來自表1的富含多發(fā)性硬化癥(MS)病理的功能細胞類型。使用人類 FANTOM 數據庫,多發(fā)性硬化癥基因檢測項目組繪制了 1,829 個樣本中每個基因的表達情況。利用每個組織中每個基因的 z 分數,繪制出多發(fā)性硬化癥(MS)基因組織特異性表達最多的組織,結果顯示大多數組織(99.9%,1827/1829)的多發(fā)性硬化癥(MS)相關基因的平均 Z 分數小于 1,同時 z 分數大于 2 的單個基因也較少(圖4A),即在所有組織中高于平均值兩個標準差的值。MS 基因表達的極端值包括多個神經區(qū)域(黑質、枕葉皮質和顳葉內側回)和免疫細胞(單核細胞衍生的巨噬細胞和中性粒細胞),這與已知的多發(fā)性硬化癥(MS)免疫神經交集一致。在前兩個組織特異性數據集(顳葉內側回和中性粒細胞)中對單個基因的 z 分數進行細分,發(fā)現多發(fā)性硬化癥基因檢測項目組列表中的大多數基因都是免疫系統(tǒng)或神經元所特有的(圖4B)。只有一個基因,PRDM2,對兩種組織都具有高度特異性,這表明存在獨特的重疊。
圖 4.多發(fā)性硬化癥列表中的人類基因表達。A :人類 FANTOM 數據庫中組織的 z 分數度量,表示該組織中 z 分數 >2 的多發(fā)性硬化癥 (MS) 相關基因的數量(y軸,即表達水平至少比平均值高兩個標準差)和組織中多發(fā)性硬化癥(MS)基因的平均 z 分數(x軸)。映射到右上方的基因被標記為可能是多發(fā)性硬化癥(MS)基因表達最高的組織。B :中性粒細胞( y軸)和內側顳葉(x軸)中候選基因的表達 z 分數,分離免疫系統(tǒng)和神經元的基因。C :每個多發(fā)性硬化癥(MS)相關基因平均表達的熱圖(表1) 遍布 20 個單細胞器官數據集。黑色框中的基因主要與非髓系腦細胞有關,橙色框中的基因與免疫系統(tǒng)有關。D :胸腺 ( y軸) 或脾臟 ( x軸) 中表達或不表達多發(fā)性硬化癥(MS)基因的細胞的基因聚類相關性。E :腦非髓系數據集中表達富集的基因 ( y軸) 或與多發(fā)性硬化癥(MS)基因相似的細胞數量 ( x軸)。
從中性粒細胞表達中鑒定出的與多發(fā)性硬化癥(MS)相關的基因包括:PLCG2,小鼠敲除導致中性粒細胞募集減少,人類突變與自身炎癥性疾病和 HLA II 類通路改變有關;CLEC16A與多種自身免疫性疾病有關,如 MS、系統(tǒng)性紅斑狼瘡和銀屑病;EVI5,異位病毒整合位點 5 基因,已鑒定出與多發(fā)性硬化癥(MS)相關的 OR 高達 2,但其機制需要借助致病基因鑒定基因解碼進行明確;AFF3與多種自身免疫性疾病有關,包括關節(jié)炎、狼瘡和 1 型糖尿?。籄SAP1是一種肌動蛋白調節(jié)劑,與細胞運動和轉移密切相關;RGS14與微管相關,參與細胞增殖、信號傳導,在小鼠 EAE 模型中上調;TBKBP1參與脊柱炎 和 TNF-α 信號轉導。
從內側顳回表達中鑒定出的與多發(fā)性硬化癥(MS)相關的基因包括:SEZ6L2,它是最富集的神經基因,此前已發(fā)現與神經突生長、ASD和癲癇有關;PSD3雖然對大腦有高度特異性,但在神經細胞中的作用鮮為人知;AHI1已被證明與抑郁癥和 Joubert 綜合征(一種運動神經發(fā)育障礙)有關;FAM69A ( DIPK1A ) 在內質網中發(fā)揮作用并與多種神經系統(tǒng)疾病有關;PTPRD是與許多疾病、癌癥和藥物成癮相關的變異,但很少有研究確定其在神經元中的作用;RELN,也稱為 reelin ,雙重突變會導致無腦畸形,即大腦光滑,并被認為與神經肌肉連接以及 VLDLR 和脂質生物學有關;晝夜節(jié)律基因CLOCK和ARNTL具有與多發(fā)性硬化癥(MS)相關的 SNP,并且在 EAE 小鼠中表達發(fā)生改變。
為了將多發(fā)性硬化癥基因檢測項目組的基因列表擴展到多發(fā)性硬化癥(MS)功能細胞類型的其他預測網絡中,多發(fā)性硬化癥基因檢測項目組利用來自 20 個小鼠器官的單細胞 RNA-Seq 數據集來識別具有共表達基因網絡的多發(fā)性硬化癥(MS)基因富集細胞(圖4C)組織聚集顯示免疫組織中幾種基因的表達升高(橙色框,圖4D)和腦非髓系細胞(黑框,圖4E)。脾臟和胸腺中細胞的表達量最高,僅表達少量的多發(fā)性硬化癥(MS)基因。對表達多發(fā)性硬化癥(MS)相關基因的脾臟和胸腺單細胞與不表達多發(fā)性硬化癥(MS)基因的細胞進行篩選,發(fā)現另外 35 個基因(Cpa3、Ccna2、Ccnb2、Igj、Mipep、Uhrf1、Phf11、Ctla4、Fcrl5、Top2a、Rrm2、Tsen54、Cdca7l、Psat1、Gsto1、Rcc1、Nol6、Tigit、Tfb2m、Fam129c、Cd160、Bcl2a1d、Slc29a1、Tfdp1、Med27、Aarsd1、Gmppb、Ddx51、Serpine2、Cox19、Chpf、Ide、Lcmt1、Rnmt和Dkc1)在兩種組織中重疊表達(圖4D)。在這些數據中識別出Igj是值得注意的,因為它在多發(fā)性硬化癥(MS)患者中升高。這 35 個基因在相互作用中具有顯著富集(FDR 0.0002),并且根據 GO 富集和字符串網絡分析,在有絲分裂細胞周期轉換中富集(FDR 3.57e-2),更具體地說是在 G0 和早期 G1 中富集(FDR 3.26e-2)。對大腦的非髓系細胞進行分層,發(fā)現有 1,709 個基因與多發(fā)性硬化癥(MS)相關基因共表達(圖4E)。在這 1,709 個基因中,少突膠質細胞分化本體論 (FDR 3.44e-6) 和髓鞘基因 (FDR 3.45e-8) 顯著富集。因此,表達多發(fā)性硬化癥(MS)相關基因的大腦非髓系細胞是參與神經元髓鞘形成的少突膠質細胞。有趣的是,之前很少有相關基因被注釋為具有這種生物學作用,這表明單細胞的分離策略確定了可能參與多發(fā)性硬化癥(MS)生物學的新基因。Sez6l2在多發(fā)性硬化癥基因檢測項目組的多發(fā)性硬化癥(MS)基因列表和大腦分離列表中,是大腦單細胞數據中相關性最高的基因之一,但之前從未與少突膠質細胞聯系起來。第二個小鼠單細胞數據庫 Mouse Cell Atlas (MCA)也表明Sez6l2在髓鞘少突膠質細胞中表達升高(P值為 5.8e-155),進一步驗證了該基因的這一新作用。分離列表頂部的其他基因包括:Galnt6,大量參與髓鞘維持所需的高爾基體 O-連接糖基化;Plekhh1在所有細胞中研究得很少;Erbb3已知參與少突膠質細胞成熟;Tyro3已顯示參與施萬細胞髓鞘形成;Efnb3與多發(fā)性硬化癥(MS)中的髓鞘再生有關。根據 MCA,發(fā)現所有基因在髓鞘少突膠質細胞中均高表達。多發(fā)性硬化癥基因的綜合網絡從系統(tǒng)層面豐富了髓鞘形成和少突膠質細胞生物學,為未來工作中的進一步網絡推斷和測試提供了可能。
非編碼基因突變序列
從基因表達轉向可能影響表達的變異是一種開始過濾多發(fā)性硬化癥(MS)LD 區(qū)塊內非編碼變異的方法。除了上述少數錯義變異外,MS 相關 LD 區(qū)塊中的大多數變異尚未評估其功能結果(圖 3)。為了進一步分析 GWAS LD 區(qū)塊的非編碼基因突變序列,多發(fā)性硬化癥基因檢測項目組使用了 GTEx eQTL 數據庫和 RegulomeDB 工具(表1)。eQTL 可以告訴多發(fā)性硬化癥基因檢測項目組 LD 阻斷的任何非編碼變異是否與基因表達變化相關,而 RegulomeDB 等工具可以根據轉錄因子結合和表觀基因組學見解縮小潛在的因果變異范圍。
對于多發(fā)性硬化癥(MS)列表中的基因,多發(fā)性硬化癥基因檢測項目組發(fā)現脂肪組織中的 eQTL 最多(30 個基因 = 33.8%),其次是腦組織(圖5A)。從全基因組來看,脂肪組織確實含有最多的 eQTL,因此從多發(fā)性硬化癥(MS)網絡中識別它并不奇怪。將這些值相對于 GTEx 中觀察到的具有 eQTL 的基因總數進行標準化,會導致組織具有相對均勻的值(圖5A,紅色)。其中一些基因的 eQTL 存在于多種組織中(圖5B),即EVI5 (23 種組織 = 54.8%)、HLA-DRB1 (22 種組織 = 52.4%)、HLA-DRB5 (21 種組織 = 50%) 和MERTK (20 種組織 = 47.6%)。處理多發(fā)性硬化癥(MS)相關基因在脂肪組織中的效應大小與顯著性時,發(fā)現所有相關基因在 LD 中都有多個 eQTL。MERTK 對基因表達增加具有最顯著的遺傳影響 (圖5C)。MERTK是一種受體激酶,已知其罕見和常見基因突變序列與多發(fā)性硬化癥(MS)有關,并且與蛋白質伴侶有關,這些蛋白質伴侶顯著豐富了胰島素和脂肪酸生物合成成分的 KEGG 通路(相對 FDR 0.005 和 0.013)。MERTK 表達的非編碼基因突變序列在脂肪中的平均效應大小為 9.45,在脛骨神經元中的平均效應大小為 11,這表明MERTK可能具有影響神經元脂肪酸合成過程和髓鞘形成動力學的非編碼基因突變序列。
圖 5.多發(fā)性硬化癥的表達數量性狀基因座 (eQTL) 分析全基因組關聯研究 (GWAS) 連鎖不平衡 (LD) 單核苷酸多態(tài)性 (SNP) 以提名基因和表觀遺傳機制。A :列表中多發(fā)性硬化癥(MS)基因的百分比,其中多種人體組織中存在 eQTL(灰色),以及相對于每種組織內映射的 eQTL 總數(包括非多發(fā)性硬化癥(MS)相關基因)的標準化值(紅色)。B :具有 eQTL 的組織最多的基因。C :皮下脂肪中 eQTL 的效應大?。▁軸)和P值(y軸),突出顯示效應大小最大的基因。D :HLA-DRB1/5 區(qū)域附近的功能性 SNP 視圖。頂部顯示的是該位點與遠端區(qū)域相互作用的 Cohesin Hi-ChIP 循環(huán)數據。E :幾種組織的 ChromHMM 模型,顯示該區(qū)域是潛在的增強子。下面顯示的是 LD SNP 相關性。
脂肪中最大的效應量是 HLA 基因HLA-DRB1/DRB5的效應量。HLA 風險基因相互作用與肥胖在多發(fā)性硬化癥(MS)發(fā)展中的高度關聯表明 eQTL 的重要性值得關注。根據 Cohesin HiChip 數據集,這些調控 eQTL 的 LD 區(qū)塊循環(huán)回 HLA-DRB1 和 HLA-DRB5 的啟動子(圖5D)。LD 區(qū)塊中有一小部分區(qū)域被標注為功能性,這是基于 Roadmap Epigenomics 在多種細胞類型(包括脂肪細胞、自然殺傷細胞、多種 T 細胞類型、單核細胞、B 細胞、胸腺、腦區(qū)和腿部肌肉)中標注的狀態(tài)(圖5E)。23 個基因突變序列與 HLA-DRB1 和 HLA-DRB5 的領先 SNP 具有 0.8 R 2相關性。人們對調節(jié)該區(qū)域的 TF 知之甚少,突出表現為缺乏 ENCODE TF 結合位點映射和 RegulomeDB 的分數(rs9271683 和 rs9271689 的分數為 3a)。
通過 RegulomeDB 對所有 LD SNP 進行進一步分析,發(fā)現了幾個預計會發(fā)生改變且可能對多發(fā)性硬化癥(MS)病因很重要的 TF 結合位點(表格1)這些變異之一 rs61784580 與主要 SNP rs10492972 具有 0.8 R2相關性,與多發(fā)性硬化癥(MS)的幾率比為 1.34 相關,并預計會改變 GFI1 的結合位點(圖 6)。領先的 SNP 位于KIF1B基因的內含子內,是KIF1B表達的 eQTL (圖 6,黑框),落在沒有已知 ENCODE TFs 結合的位點上,預計不會改變任何 TF 結合位點。然而,rs61784580 位于距離主要 SNP 82,616 個堿基對處,位于 H3K27 ?;ɑ钚赞D錄標記)Roadmap 注釋的啟動子上,該啟動子附近有 26 個來自 ENCODE 的 TFs 結合,環(huán)路到多個基于黏連蛋白 HiChIP 的 Roadmap 注釋增強子,是KIF1B eQTL,預計會改變 GFI1 TF 結合位點(圖 6,青色框)。GFI1 是一種對髓系和淋巴細胞發(fā)育至關重要的基因,其突變與中性粒細胞減少癥和 T 細胞發(fā)育有關。因此,僅從數據預測來看,多發(fā)性硬化癥基因檢測項目組認為 rs61784580 在多種細胞類型中調節(jié)KIF1B的機制性非編碼生物學與多發(fā)性硬化癥(MS)相關,應在實驗室中進一步研究。
圖 6:rs10492972 區(qū)域中功能性非編碼 SNP 的 RegulomeDB。從頂部開始是rs61784580 啟動子 SNP 或內含子引導 SNP rs10492972 的循環(huán)數據,后面是人類基因組瀏覽器的多個數據集、該區(qū)域的 18 狀態(tài) ChromHMM 基因組注釋、CEU LD SNP 相關性、兩個位點附近轉錄因子結合位點的詳細信息以及來自 LD 塊的 KIF1B 的 eQTL,它們都顯示出相似的效應大小。
結合數據來剖析多發(fā)性硬化癥(MS)LD 生物學
MS 的 GWAS SNP 與 GWAS 目錄中所有其他特征的交集可用于解釋疾病病理的重疊機制和導致病理的特征。根據 GWAS 數據庫查詢了多發(fā)性硬化癥(MS)主導 SNP 的整個估算 SNP 數據集,刪除了多發(fā)性硬化癥(MS)相關特征,揭示了重疊遺傳學與多種其他自身免疫性疾病(如克羅恩病、炎癥性腸病、狼瘡、乳糜瀉、關節(jié)炎和糖尿?。┮约昂币姷纳窠浵到y(tǒng)疾病多系統(tǒng)萎縮(圖7A)。一些基因突變序列被發(fā)現具有多種相關特征,包括一些 LD 基因突變序列(圖7B)。對這些具有多種性狀的SNP的剖析闡明了本文結合數據整合的多個層次的知識(圖7C),凸顯了多發(fā)性硬化癥基因檢測項目組目前的研究在將機制見解映射到多發(fā)性硬化癥(MS)系統(tǒng)生物學方面的能力??偨Y圖7C對于多發(fā)性硬化癥(MS)相關非編碼變異的頂級調控預測:1 ) 發(fā)現 rs140522 的 LD 阻斷與多種血液性狀和細胞類型相關,影響巨噬細胞中的TYMP表達;2 ) 發(fā)現 rs10936599 的 LD 阻斷與多種癌癥和免疫功能障礙相關,其基因突變序列可能會改變 STAT5 結合,影響室管膜神經細胞中的LRRC34表達;3 ) rs1036207 的 LD 阻斷與嗜酸性粒細胞和中性粒細胞生物學相關,其基因突變序列可能會改變 Evi-1 轉錄因子結合,影響多種細胞類型中的 NDFIP1 表達。
圖 7:多發(fā)性硬化癥 (MS) 連鎖不平衡 (LD) 單核苷酸多態(tài)性 (SNP) 與其他全基因組關聯研究 (GWAS) 性狀重疊。A :每個性狀映射的與任何多發(fā)性硬化癥(MS)相關 LD 區(qū)段基因突變序列重疊的 SNP 數量。性狀按發(fā)生情況排序。B :與其關聯性狀最多的 SNP,這些 SNP 也位于多發(fā)性硬化癥(MS)LD 區(qū)段內。前四個在C中詳細說明,其中兩個 SNP 位于 LD,相關性為 0.93R 2。C :性狀的三個前 SNP細分。對于每一個,最左邊顯示具有 95% 置信區(qū)間的性狀。接下來是通過 RegulomeDB 對功能性 LD SNP 的分析,顯示每個 SNP 相對于領先 SNP 的 R2 值和基因突變序列的 RegulomeDB 得分。此后是頂級 RegulomeDB SNP 的 eQTL 列表。最右邊顯示了來自 FANTOM(免疫細胞)或 Mouse Cell Atlas(大腦)的具有最顯著 eQTL 的基因的表達數據。
多發(fā)性硬化癥基因檢測科學性及其位點選擇
遺傳因素對疾病和特征的影響已得到充分證實,但人們對變異發(fā)揮作用的機制和途徑了解甚少,無法了解其遺傳關聯。缺乏機制的原因有幾個,最明顯的是多個變異的 LD 遺傳,因此很難從統(tǒng)計學上找出致病變異。為了解決這個問題,人們在表觀遺傳學和 TF 結合方面投入了大量資金,但工具集成到疾病病理學解釋方面卻存在滯后。雖然目前的數據和計算能力很強,但理解數據聯系仍然需要人工時間來整理信息并解釋遺傳因素對疾病的影響。多發(fā)性硬化癥基因檢測項目組在致病基因鑒定方面證明了這一點,展示了如何需要多種工具來識別 LD 變異對疾病的貢獻。利用數據庫和工具集成的系統(tǒng)遺傳策略來推導可能的多發(fā)性硬化癥(MS)病因的相關網絡。這些數據表明了多個部位的潛在機制,突出了免疫系統(tǒng)成分和神經髓鞘生物學的交集(圖 8)。雖然可以使用現有工具快速篩選錯義變異,但非編碼變異的解釋在數據整合方面仍然具有挑戰(zhàn)性,但多發(fā)性硬化癥基因檢測項目組可以確定一些功能位點,正如《多發(fā)性硬化癥基因檢測》所討論的那樣。許多其他遺傳學尚未通過現有工具得到很好的理解,這表明需要針對巨噬細胞和 T 細胞轉錄控制開關定制的額外數據集,這些開關可能會因非編碼變異而改變。自 1868 年最初將多發(fā)性硬化癥(MS)描述為一種獨特疾病以來,對該疾病遺傳機制的解釋僅在過去十年中才出現。多發(fā)性硬化癥基因檢測項目組現在對基因序列變化對多發(fā)性硬化癥(MS)的貢獻的了解程度是驚人的,這是數百萬美元投資于遺傳關聯的結果,更重要的是,這是更大的一般轉錄數據集的結果。隨著這些數據集變得越來越便宜和更容易生成,應該開發(fā)更多定制的數據集以完全解釋多發(fā)性硬化癥(MS)遺傳學,為風險傾向和個性化治療建立更強大的計算算法。
圖 8:基于多發(fā)性硬化癥基因檢測項目組的遺傳系統(tǒng)數據整合的與多發(fā)性硬化癥 (MS) 病因相關的途徑的工作模型。
(責任編輯:佳學基因)