【佳學(xué)基因檢測(cè)】基因突變對(duì)疾病發(fā)生的影響分析:GWAS分析的技術(shù)
基因檢測(cè)的科學(xué)依據(jù)來(lái)源:GWAS
全基因組關(guān)聯(lián)研究 (GWAS)是以佳學(xué)基因?yàn)榇淼幕蚪獯a機(jī)構(gòu)所采用的一個(gè)客觀獲取基因位點(diǎn)的不同等位基因?qū)θ梭w健康、疾病與用藥指導(dǎo)的相關(guān)性的一種研究方法。佳學(xué)基因GWAS在一個(gè)分析中可以測(cè)試許多基因組中的數(shù)十萬(wàn)個(gè)遺傳變異,以發(fā)現(xiàn)與特定性狀、疾病或生理功能具有統(tǒng)計(jì)相關(guān)性的變異。這種方法已經(jīng)發(fā)現(xiàn)了與一系列性狀和疾病具有強(qiáng)相關(guān)性基因位點(diǎn),揭示了它們之間的相關(guān)性。并且隨著 GWAS 樣本量的增加,相關(guān)變異的數(shù)量預(yù)計(jì)將穩(wěn)步增長(zhǎng)。GWAS 結(jié)果具有廣泛的應(yīng)用,例如深入了解表型的潛在生物學(xué)、估計(jì)其遺傳力、計(jì)算遺傳相關(guān)性、進(jìn)行臨床風(fēng)險(xiǎn)預(yù)測(cè)、為藥物開(kāi)發(fā)計(jì)劃提供信息以及推斷風(fēng)險(xiǎn)因素與健康結(jié)果之間的潛在因果關(guān)系。佳學(xué)基因檢測(cè)向介紹了 GWAS,解釋了它們的統(tǒng)計(jì)基礎(chǔ)以及它們是如何進(jìn)行的,描述了賊先進(jìn)的方法并討論了局限性和挑戰(zhàn),并簡(jiǎn)單說(shuō)明了 GWAS 當(dāng)前和未來(lái)的應(yīng)用 結(jié)果。
基因解碼技術(shù)之一:GWAS基因檢測(cè)與分析方法介紹
全基因組關(guān)聯(lián)研究 (GWAS) 旨在通過(guò)測(cè)試祖先相似但表型不同的個(gè)體之間遺傳變異等位基因頻率的差異來(lái)確定基因型與表型的關(guān)聯(lián)。 GWAS 可以考慮人類(lèi)基因組中的拷貝數(shù)變異或序列變異,盡管 GWAS 中賊常研究的遺傳變異是單核苷酸多態(tài)性 (SNP)。 GWAS 通常會(huì)報(bào)告相關(guān) SNP 的塊,這些 SNP 都顯示出與感興趣的性狀(稱(chēng)為基因組風(fēng)險(xiǎn)位點(diǎn))具有統(tǒng)計(jì)學(xué)意義的關(guān)聯(lián)。 經(jīng)過(guò) 15 年的 GWAS,許多復(fù)制的基因組風(fēng)險(xiǎn)位點(diǎn)與疾病和性狀相關(guān),例如肥胖的 FTO2 和自身免疫性疾病的 PTPN22。 這些結(jié)果有時(shí)為疾病生物學(xué)提供了線(xiàn)索; 例如,GWAS 表明 IL-12/IL-23 通路與克羅恩病的發(fā)展有關(guān),這支持了隨后針對(duì) IL-12/IL-23 通路的藥物的臨床試驗(yàn)。
GWAS 的結(jié)果可用于一系列應(yīng)用。 例如,與性狀相關(guān)的遺傳變異可以用作流行病學(xué)研究中的控制變量,以解釋混雜的遺傳群體差異。 此外,結(jié)果可用于根據(jù)個(gè)人的基因特征預(yù)測(cè)個(gè)人患身
心疾病的風(fēng)險(xiǎn)。 事實(shí)上,賊近的一項(xiàng)研究表明,使用全基因組多基因風(fēng)險(xiǎn)評(píng)分 (PRS) 對(duì)冠狀動(dòng)脈疾病、心房顫動(dòng)、2 型糖尿病、炎癥性腸病和乳腺癌進(jìn)行基因組風(fēng)險(xiǎn)預(yù)測(cè)可以識(shí)別疾病風(fēng)險(xiǎn)以及基于單基因風(fēng)險(xiǎn)預(yù)測(cè)策略 關(guān)于罕見(jiàn)的、高度滲透的突變。 基因組風(fēng)險(xiǎn)預(yù)測(cè)可能很快被允許用于臨床,作為分層工具和基于遺傳的生物標(biāo)志物。
在佳學(xué)基因的GWAS:基因解碼與基因檢測(cè)系列技術(shù)介紹中,佳學(xué)基因?yàn)樯镄畔⒓夹g(shù)愛(ài)好者提供 GWAS 的全面概述,涵蓋實(shí)際考慮因素,例如實(shí)驗(yàn)設(shè)計(jì)、穩(wěn)健的數(shù)據(jù)分析和數(shù)據(jù)沉積、倫理意義和結(jié)果的可重復(fù)性。 佳學(xué)基因還提供有關(guān)如何使用 GWAS 后策略和功能性后續(xù)實(shí)驗(yàn)解釋 GWAS 結(jié)果的方法學(xué),以及如何應(yīng)對(duì) GWAS 的技術(shù)局限性和未來(lái)的挑戰(zhàn)。
佳學(xué)基因GWAS基因檢測(cè):實(shí)驗(yàn)設(shè)計(jì)
GWAS 的實(shí)驗(yàn)工作流程涉及幾個(gè)步驟,包括從一組個(gè)體中收集 DNA 和表型信息(例如疾病狀態(tài)和年齡和性別等人口統(tǒng)計(jì)信息); 使用可用的 GWAS 陣列或測(cè)序策略對(duì)每個(gè)個(gè)體進(jìn)行基因分型; 質(zhì)量控制; 使用單倍型定分析和參考群體估算未分類(lèi)的變異; 進(jìn)行關(guān)聯(lián)統(tǒng)計(jì)檢驗(yàn); 進(jìn)行薈萃分析(可選); 尋求獨(dú)立重復(fù); 并通過(guò)進(jìn)行多個(gè) GWAS 后分析來(lái)解釋結(jié)果(圖 1)。 每一步都會(huì)引入可能的偏差和錯(cuò)誤,因此在設(shè)計(jì) GWAS 時(shí)需要仔細(xì)規(guī)劃,并建議遵守標(biāo)準(zhǔn)化的質(zhì)量控制和分析流程。 佳學(xué)基因檢測(cè)在下面詳細(xì)介紹這些步驟。 佳學(xué)基因提醒大家,在進(jìn)行 GWAS 時(shí)可能出現(xiàn)的大多數(shù)問(wèn)題,例如仔細(xì)選擇參與者或質(zhì)量控制所需的步驟,都適用于包含常見(jiàn)變異的 GWAS 和包含罕見(jiàn)變異的研究,例如全外顯子組測(cè)序 (WES) 研究和全基因組測(cè)序 (WGS) 研究。以下部分涉及常見(jiàn)等位基因的分析,除非明確說(shuō)明(專(zhuān)欄 1)。
佳學(xué)基因解碼基礎(chǔ)概念詮釋?zhuān)撼R?jiàn)突變和罕見(jiàn)突變
全基因組關(guān)聯(lián)研究 (GWAS) 通常需要使用微陣列對(duì)特定和預(yù)選的基因位點(diǎn)進(jìn)行靶向基因分型,而全外顯子組測(cè)序 (WES) 和全基因組測(cè)序 (WGS) 研究旨在捕獲所有遺傳變異。 嚴(yán)格來(lái)說(shuō),WES 和 WGS 研究也是 GWAS,盡管在文獻(xiàn)中“GWAS”主要指的是常見(jiàn)變異的全基因組研究,有時(shí)被認(rèn)為與 WGS 和 WES 研究分開(kāi)。 將變異聲明為常見(jiàn)或罕見(jiàn)是特定于人群的,不能在人群中推廣。 通常,常見(jiàn)變異是那些次要等位基因頻率超過(guò) 10% 的變異,盡管隨著人群數(shù)值的增長(zhǎng),該閾值可能低至 1%,因?yàn)檠芯咳藛T通常堅(jiān)持賊低次要等位基因計(jì)數(shù); 例如,至少有 100 個(gè)人攜帶至少一份次要等位基因。 隨著 WGS 和 WES 研究剛剛開(kāi)始成熟,當(dāng)前的分析方案可能需要擴(kuò)展,以涵蓋分析罕見(jiàn)變異時(shí)出現(xiàn)的特定問(wèn)題,例如,控制群體分層或估算缺失基因型時(shí)。
基因解碼GWAS的實(shí)施流程
選擇研究人群
GWAS 通常需要非常大的樣本量來(lái)識(shí)別可重現(xiàn)的全基因組顯著關(guān)聯(lián),并且可以使用 CaTS或 GPC等軟件工具中的功效計(jì)算來(lái)確定所需的樣本量。 當(dāng)要研究的性狀是二分法時(shí),研究設(shè)計(jì)可以包括案例和對(duì)照。或者當(dāng)性狀是定量時(shí),可以包括對(duì)整個(gè)研究樣本的定量測(cè)量。 此外,人們可以在基于人口的設(shè)計(jì)和基于家庭的設(shè)計(jì)之間進(jìn)行選擇。 GWAS 的數(shù)據(jù)資源和研究設(shè)計(jì)的選擇取決于所需的樣本量、實(shí)驗(yàn)問(wèn)題和現(xiàn)有數(shù)據(jù)的可用性或收集新數(shù)據(jù)的難易程度。 GWAS 可以使用來(lái)自生物庫(kù)或以疾病為中心或基于人群的隊(duì)列等資源的數(shù)據(jù),或通過(guò)直接面向消費(fèi)者的研究來(lái)進(jìn)行。拼湊足夠大的數(shù)據(jù)集以針對(duì)復(fù)雜性狀運(yùn)行強(qiáng)大的 GWAS 需要大量的時(shí)間和金錢(qián)投資,這超出了大多數(shù)單個(gè)實(shí)驗(yàn)室的能力。 然而,有一些出色的公共資源可以提供對(duì)具有基因型和表型信息的大型隊(duì)列的訪問(wèn),并且大多數(shù) GWAS 都是使用這些預(yù)先存在的資源進(jìn)行的。 即使在內(nèi)部收集了新數(shù)據(jù),這些數(shù)據(jù)通常也會(huì)與現(xiàn)有資源的數(shù)據(jù)進(jìn)行共同分析; 當(dāng)需要更精細(xì)的表型分析時(shí),通常需要收集新數(shù)據(jù)。
對(duì)于所有研究設(shè)計(jì),必須仔細(xì)考慮患者的入組策略,因?yàn)檫@些策略可能會(huì)在結(jié)果數(shù)據(jù)中引起對(duì)撞偏差和其他形式的偏差。 例如,英國(guó)生物銀行等廣泛使用的研究隊(duì)列通過(guò)基于志愿者的策略招募參與者,這導(dǎo)致參與者平均比一般人群更健康、更富有且受教育程度更高。 此外,根據(jù)疾病狀況從醫(yī)院(例如 BioBank Japan)招募參與者的隊(duì)列與從普通人群招募的隊(duì)列具有不同的選擇偏差。 不同的種族可以包括在同一研究中,只要考慮人口亞結(jié)構(gòu)以避免假陽(yáng)性結(jié)果。 具有詳細(xì)臨床措施的個(gè)體隊(duì)列可能無(wú)法滿(mǎn)足所需的樣本量; 在這些情況下,可以使用更容易測(cè)量并且有更多數(shù)據(jù)的“代理”表型(例如,教育程度可以用作智力的代理,或者抑郁癥狀可以用作臨床抑郁癥的診斷的代表) 。
基因分型
個(gè)體的基因分型通常使用常見(jiàn)變異的微陣列或下一代測(cè)序方法( 如 WES 或 WGS, WES和WGS也包括罕見(jiàn)變異)來(lái)完成。 由于當(dāng)前下一代測(cè)序的成本,基于微陣列的基因分型是獲得 GWAS 基因型的賊常用方法。 然而,基因分型平臺(tái)的選擇取決于許多因素,并且往往因?yàn)?GWAS 的目的而不同; 例如,在聯(lián)合體主導(dǎo)的 GWAS 中,在同一基因分型平臺(tái)上對(duì)所有個(gè)體隊(duì)列進(jìn)行基因分型通常是明智的。 理想情況下,WGS——幾乎可以確定全基因組的每個(gè)基因型——優(yōu)于 WES 和微陣列,并且隨著低成本 WGS 技術(shù)的日益普及,預(yù)計(jì)將成為未來(lái)幾年的先進(jìn)方法。
數(shù)據(jù)處理
GWAS 的輸入文件包括匿名的個(gè)人 ID 號(hào)、個(gè)人之間的家庭關(guān)系編碼、性別、表型信息、協(xié)變量、所有調(diào)用的基因位點(diǎn)的基因型以及基因分型批次的信息。 輸入數(shù)據(jù)后,從 GWAS 生成高效的結(jié)果需要仔細(xì)的質(zhì)量控制。 一些示例步驟包括移除稀有或單態(tài)變異、移除不在 Hardy-Weinberg 平衡中的變異、過(guò)濾隊(duì)列中部分個(gè)體缺失的 SNP、識(shí)別和移除基因分型錯(cuò)誤,以及確保表型與遺傳匹配良好 數(shù)據(jù),通常通過(guò)比較自我報(bào)告的性別與基于 X 和 Y 染色體的性別。 PLINK 等軟件工具專(zhuān)為分析遺傳數(shù)據(jù)而設(shè)計(jì),可用于執(zhí)行許多此類(lèi)質(zhì)量控制步驟(用于質(zhì)量控制分析和 GWAS 其他階段的其他軟件在表 1 中進(jìn)行了總結(jié))。 一旦對(duì) GWAS 陣列數(shù)據(jù)進(jìn)行了樣本和基因位點(diǎn)基因分型質(zhì)量控制,變體通常會(huì)進(jìn)行定相,并使用已排序的單倍型參考面板(例如 1000 基因組計(jì)劃或 TOPMed21,22)進(jìn)行估算,這涉及尚未進(jìn)行直接分析的基因型的統(tǒng)計(jì)推斷 (專(zhuān)欄 2)。 GWAS 聯(lián)盟通常遵循執(zhí)行質(zhì)量控制步驟和推算的分析流程,使用例如 RICOPILI 或類(lèi)似軟件,或?qū)⑵鋽?shù)據(jù)上傳到運(yùn)算服務(wù)器(例如,密歇根運(yùn)算服務(wù)器或 TOPMed 運(yùn)算服務(wù)器),這些標(biāo)準(zhǔn)化分晰流程已在這些服務(wù)器上運(yùn)行 實(shí)施的。 由于遺傳數(shù)據(jù)集通常很大并且分析管道可以并行運(yùn)行,因此經(jīng)常使用可以將作業(yè)分配給許多計(jì)算機(jī)的計(jì)算機(jī)集群或云環(huán)境。 為了以遵循數(shù)據(jù)保護(hù)規(guī)則的后勤可行方式實(shí)現(xiàn)遺傳研究中典型的大樣本量,上述步驟通常針對(duì)不同樣本量的許多不同隊(duì)列分別完成(參見(jiàn)全基因組關(guān)聯(lián)薈萃分析 (GWAMA) 部分) .
表3 可應(yīng)用于GWAS各階段的開(kāi)源工具
軟件 |
用途 |
---|---|
質(zhì)量控制 |
|
可用于質(zhì)量控制的許多關(guān)鍵步驟,包括過(guò)濾不良 SNP(基于偏離 Hardy-Weinberg 平衡、基因分型檢出率和次要等位基因頻率)和不良個(gè)體(基于性別檢查、基因分型檢出率、樣本檢出率,雜合性和相關(guān)性檢查) |
|
用于元分析輸入的原始遺傳數(shù)據(jù)和匯總統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量控制 |
|
原始基因分型數(shù)據(jù)的主成分分析;提供可用于校正人口分層的個(gè)體水平主成分 |
|
類(lèi)似于SMARTPCA;隨著樣本量的增加,速度更快,更具可擴(kuò)展性 |
|
分型 |
|
根據(jù)與祖先匹配的現(xiàn)有參考小組估算缺失的基因型;往往比其他分型工具使用更多的內(nèi)存 |
|
根據(jù)與祖先匹配的現(xiàn)有參考小組估算缺失的基因型 |
|
根據(jù)與祖先匹配的現(xiàn)有參考小組估算缺失的基因型;Minimac 包括預(yù)定相,可加快分型時(shí)間 |
|
關(guān)聯(lián)性分析 |
|
進(jìn)行遺傳關(guān)聯(lián)的賊廣為人知的工具 |
|
遺傳關(guān)聯(lián)測(cè)試;適用于 IMPUTE2 |
|
基于線(xiàn)性混合模型的遺傳關(guān)聯(lián)檢驗(yàn) |
|
二元表型的遺傳關(guān)聯(lián);分析非常大的樣本(N > 100,000) |
|
基于用于混合模型關(guān)聯(lián)測(cè)試的 BOLT-LMM 算法和用于方差成分分析的 BOLT-REML 算法的遺傳關(guān)聯(lián)測(cè)試(基于 SNP 的遺傳力的劃分和遺傳相關(guān)性的估計(jì)) |
|
遺傳關(guān)聯(lián)測(cè)試;分析非常大的樣本(N > 100,000);可以一次評(píng)估多種表型;快速且內(nèi)存高效 |
|
連續(xù)表型的遺傳關(guān)聯(lián);分析非常大的樣本(N > 100,000);為英國(guó)生物銀行 BGENv1.2 文件格式定制 |
|
混合模型遺傳關(guān)聯(lián)分析 |
|
統(tǒng)計(jì)精細(xì)映射 |
|
根據(jù)觀察到的P值模式和連鎖不平衡水平估計(jì)基因座中每個(gè)變異是因果關(guān)系的概率;允許任意數(shù)量的因果變異 |
|
使用 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)和功能基因組數(shù)據(jù)進(jìn)行統(tǒng)計(jì)精細(xì)定位,以確定可能的因果變異的優(yōu)先級(jí) |
|
使用 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)和來(lái)自參考面板的連鎖不平衡信息進(jìn)行統(tǒng)計(jì)精細(xì)定位;基于前向選擇模型的貝葉斯修正 |
|
使用 GWAS 匯總統(tǒng)計(jì)作為輸入的統(tǒng)計(jì)精細(xì)映射;由于可能的因果 SNP,計(jì)算效應(yīng)量和遺傳力 |
|
薈萃分析 |
|
固定和隨機(jī)效應(yīng)薈萃分析;允許指定不同的遺傳模型 |
|
使用 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)作為輸入的加權(quán)薈萃分析 |
|
變異注釋 |
|
遺傳變異的功能注釋及其對(duì)基因、轉(zhuǎn)錄本和蛋白質(zhì)序列以及調(diào)控區(qū)域的影響 |
|
遺傳變異的功能注釋及其對(duì)基因、轉(zhuǎn)錄本和蛋白質(zhì)序列以及調(diào)控區(qū)域的影響 |
|
遺傳變異的功能注釋及其對(duì)基因、轉(zhuǎn)錄本和蛋白質(zhì)序列以及調(diào)控區(qū)域的影響;包括染色質(zhì)相互作用信息并整合和可視化所有輸出 |
|
富集或基因集分析 |
|
使用具有回歸框架的競(jìng)爭(zhēng)性測(cè)試進(jìn)行基于基因和基因集的分析;允許測(cè)試自定義基因集,并包括用于基因集之間的條件和交互測(cè)試的選項(xiàng) |
|
使用預(yù)測(cè)的基因功能對(duì)基因進(jìn)行系統(tǒng)的優(yōu)先排序和對(duì)富集途徑的評(píng)估 |
|
基于 SNP 的分區(qū)遺傳力分析顯示功能相關(guān) SNP 集的富集 |
|
QTL分析 |
|
分子QTL發(fā)現(xiàn)與分析;使用原始基因組(序列)數(shù)據(jù)作為輸入 |
|
遺傳相關(guān)性 |
|
使用匯總統(tǒng)計(jì)作為輸入評(píng)估表型之間的遺傳相關(guān)性;具有各種其他功能,包括基于 SNP 的分區(qū)遺傳力和選擇偏倚評(píng)估 |
|
使用原始基因型數(shù)據(jù)作為輸入評(píng)估表型之間的遺傳相關(guān)性 |
|
使用匯總統(tǒng)計(jì)作為輸入評(píng)估表型之間的遺傳相關(guān)性;具有各種其他功能,包括基于 SNP 的分區(qū)遺傳力和選擇偏倚評(píng)估 |
|
使用 GWAS 匯總統(tǒng)計(jì)評(píng)估局部遺傳相關(guān)性 |
|
使用 GWAS 匯總統(tǒng)計(jì)評(píng)估基于局部 SNP 的遺傳力和遺傳相關(guān)性 |
|
使用 GWAS 匯總統(tǒng)計(jì)評(píng)估局部多變量遺傳相關(guān)性 |
|
基于 GWAS 匯總統(tǒng)計(jì)的多變量遺傳相關(guān)性評(píng)估 |
|
因果關(guān)系 |
|
基于遺傳重疊的性狀因果關(guān)系評(píng)估,使用 GWAS 匯總統(tǒng)計(jì)作為輸入。 |
|
PRS分析 |
|
使用貝葉斯收縮法估計(jì) SNP 的后驗(yàn)效應(yīng)大小 |
|
使用貝葉斯收縮法估計(jì) SNP 的后驗(yàn)效應(yīng)大小 |
|
使用貝葉斯收縮法估計(jì) SNP 的后驗(yàn)效應(yīng)大小 |
|
使用P值閾值和聚集方法的 PRS 分析 |
|
TWAS |
|
通過(guò)基于參考數(shù)據(jù)預(yù)測(cè)功能/分子表型來(lái)執(zhí)行 TWAS;使用 GWAS 匯總統(tǒng)計(jì)作為輸入 |
|
根據(jù)轉(zhuǎn)錄數(shù)據(jù)對(duì)可能的致病基因進(jìn)行優(yōu)先排序;使用 GWAS 匯總統(tǒng)計(jì)作為輸入 |
|
使用孟德?tīng)栯S機(jī)化方法測(cè)試 SNP 性狀關(guān)聯(lián)是否由基因表達(dá)水平介導(dǎo) |
在 GWAS 中必須仔細(xì)考慮和解釋祖先和親緣關(guān)系,實(shí)際上所有的遺傳研究——特別是在來(lái)自不同背景的參與者的數(shù)據(jù)集中,以避免由于人口分層導(dǎo)致的假陽(yáng)性或陰性遺傳信號(hào)和有偏差的測(cè)試統(tǒng)計(jì)數(shù)據(jù)。 在 GWAS 中,這些信號(hào)可能導(dǎo)致高估基于 SNP 的遺傳力和有偏見(jiàn)的 PRS。 它們也可能使孟德?tīng)栯S機(jī)化研究的結(jié)果產(chǎn)生偏差。 病例和對(duì)照應(yīng)按血統(tǒng)匹配以避免混淆; 例如,如果將案例定義為“經(jīng)常使用筷子”并將對(duì)照定義為“不使用筷子”,則用于筷子使用的 GWAS 可能會(huì)導(dǎo)致案例更多地來(lái)自東亞人口而不是對(duì)照。 在這項(xiàng)研究中不考慮血統(tǒng)將確定在東亞人群中比其他人群更常見(jiàn)的變異之間的關(guān)聯(lián),例如特定人類(lèi)白細(xì)胞抗原 (HLA) 等位基因的變異,不是因?yàn)檫@些變異有助于靈活性,而是因?yàn)槲幕?xí)俗,在這種情況下 , 作為混雜因素。 GWAS 通常通過(guò)使用主成分分析的迭代過(guò)程來(lái)考慮祖先; 所有個(gè)體的基因型用于定義具有相似基因型的個(gè)體簇。 這樣做首先是為了識(shí)別和排除異常值,然后計(jì)算主成分并將其作為協(xié)變量包含在后續(xù)的 GWAS 回歸模型中。
- 統(tǒng)計(jì)階段個(gè)體基因型
- 決定是否使用硬調(diào)用或權(quán)重來(lái)確定不確定性
- 選擇合適的參考人群面板
- 將參考面板和目標(biāo)人群轉(zhuǎn)換為相同的基因組構(gòu)建
- 檢查鏈問(wèn)題,解決不同平臺(tái)之間的問(wèn)題,可能會(huì)刪除不明確的 SNP
- 檢查異常次要等位基因頻率和參考組與目標(biāo)數(shù)據(jù)之間的連鎖不平衡模式
- 針對(duì)選定的群體面板估算缺失的基因型,理想情況下使用集群計(jì)算資源來(lái)分配分析作業(yè),或使用估算服務(wù)器
- 檢查插補(bǔ)質(zhì)量并可能刪除插補(bǔ)錯(cuò)誤的 SNP(例如,信息分?jǐn)?shù) <0.7 的 SNP)
關(guān)聯(lián)性測(cè)試
遺傳關(guān)聯(lián)理論基于生物統(tǒng)計(jì)學(xué)模型(更多細(xì)節(jié)見(jiàn)補(bǔ)充說(shuō)明)。 通常在 GWAS 中,線(xiàn)性或邏輯回歸模型用于測(cè)試關(guān)聯(lián),具體取決于表型是連續(xù)的(例如身高、血壓或體重指數(shù))還是二元的(例如存在或不存在疾?。?。 包括年齡、性別和血統(tǒng)等協(xié)變量以解釋分層并避免人口因素的混雜影響,但需要注意的是,這可能會(huì)降低已確定樣本中二元特征的統(tǒng)計(jì)功效。 包括一個(gè)額外的隨機(jī)效應(yīng)項(xiàng)——它在線(xiàn)性或邏輯混合模型中是個(gè)體特定的,以解釋個(gè)體之間的遺傳相關(guān)性——可以提高基因組發(fā)現(xiàn)的統(tǒng)計(jì)能力,并增加對(duì)分層的控制,但代價(jià)是需要更多的計(jì)算資源 (盡管 這個(gè)限制可以通過(guò)使用諸如 fastGWA之類(lèi)的工具來(lái)解決)。 在進(jìn)行 GWAS 時(shí),應(yīng)該注意物理上靠近的遺傳變異的基因型并不是獨(dú)立的,因?yàn)樗鼈兺幱谶B鎖不平衡狀態(tài); 在進(jìn)行 GWAS 時(shí)也應(yīng)考慮測(cè)試的這種依賴(lài)性。
GWAS 的線(xiàn)性回歸模型可以寫(xiě)成如下:
其中,對(duì)于每個(gè)個(gè)體,Y 是表型值的向量,W 是包括截距項(xiàng)的協(xié)變量矩陣,α 是相應(yīng)的效應(yīng)大小向量,Xs 是 SNP s 處所有個(gè)體的基因型值向量,βs 是 遺傳變異s對(duì)應(yīng)的固定效應(yīng)大小(也稱(chēng)為SNP效應(yīng)大?。?,g是隨機(jī)效應(yīng),捕捉其他SNP的多基因效應(yīng),e是殘差的隨機(jī)效應(yīng),σ2A 測(cè)量表型的加性遺傳變異,ψ 為標(biāo)準(zhǔn)遺傳關(guān)系矩陣,σ2e 測(cè)量殘差,I 是單位矩陣。 在邏輯回歸模型中,logit 鏈接函數(shù)用于二項(xiàng)式分布的病例-對(duì)照表型以模擬結(jié)果幾率。
錯(cuò)誤發(fā)現(xiàn)的計(jì)算處理
測(cè)試個(gè)體遺傳變異與感興趣的表型之間的數(shù)百萬(wàn)個(gè)關(guān)聯(lián)需要嚴(yán)格的多重測(cè)試閾值以避免誤報(bào)。 國(guó)際 HapMap 項(xiàng)目等研究表明,整個(gè)人類(lèi)基因組平均約有 1000 萬(wàn)個(gè)獨(dú)立的常見(jiàn)遺傳變異,導(dǎo)致 Bonferroni 測(cè)試閾值為 P < 5 × 10–8(代表錯(cuò)誤發(fā)現(xiàn)率為 0.05/106 )。 適當(dāng)?shù)拈撝悼赡芤蛉丝诙悾?例如,對(duì)于有效種群規(guī)模較大的種群,可能需要更嚴(yán)格的閾值,或者如果隨著樣本量的增加,GWAS 中包含的次要等位基因頻率閾值會(huì)降低,因?yàn)榇我任换蝾l率低的變異通常不會(huì)與常見(jiàn)的連鎖不平衡變體,因此增加了更大的多重測(cè)試負(fù)擔(dān)。 身高、精神分裂癥或 2 型糖尿病等復(fù)雜性狀往往是高度多基因的,因此,許多影響很小的遺傳變異會(huì)影響表型。 在這些情況下,贏家的詛咒很常見(jiàn),接近發(fā)現(xiàn)閾值的效應(yīng)量估計(jì)在初始 GWAS 中往往被高估。
比較發(fā)現(xiàn)隊(duì)列和獨(dú)立復(fù)制隊(duì)列之間的效應(yīng)大小是通過(guò)校準(zhǔn)效應(yīng)大小估計(jì)來(lái)解釋錯(cuò)誤發(fā)現(xiàn)和贏家詛咒的黃金標(biāo)準(zhǔn)。 理想情況下,在 GWAS 開(kāi)始時(shí)考慮復(fù)制隊(duì)列,并應(yīng)提供足夠的統(tǒng)計(jì)能力來(lái)糾正贏家的詛咒和多重測(cè)試; 然而,在 GWAS 之前,效果大小當(dāng)然是未知的。 在比較發(fā)現(xiàn)隊(duì)列和復(fù)制隊(duì)列之間的效應(yīng)大小時(shí),應(yīng)為每個(gè)隊(duì)列使用效應(yīng)統(tǒng)計(jì)和相應(yīng)的誤差項(xiàng)(例如,回歸系數(shù)、比值比等),特別是不同的GWAS使用不同的軟件進(jìn)行執(zhí)行時(shí)。 復(fù)制隊(duì)列必須有效獨(dú)立于發(fā)現(xiàn)隊(duì)列,隊(duì)列中的個(gè)體之間沒(méi)有共享的個(gè)體或遺傳關(guān)系。
全基因組關(guān)聯(lián)薈萃分析
為了增加樣本量,GWAS 通常通過(guò)聯(lián)合協(xié)作進(jìn)行,例如精神病學(xué)基因組學(xué)聯(lián)合體、人體測(cè)量特征遺傳調(diào)查 (GIANT) 聯(lián)合體或全球脂質(zhì)遺傳學(xué)聯(lián)合體,其中使用諸如此類(lèi)的工具對(duì)來(lái)自多個(gè)隊(duì)列的數(shù)據(jù)進(jìn)行分析如 METAL、N-GWAMA 或 MA-GWAMA 以及質(zhì)量控制分析流程,例如在 RICOPILI 或 EasyQC 中實(shí)施的分析流程。 有關(guān)特定于 GWAMA 的質(zhì)量控制程序的詳細(xì)說(shuō)明,佳學(xué)基因解碼建議讀者參閱參考文獻(xiàn)。 GWAMA 的關(guān)鍵步驟是首先確保各個(gè)隊(duì)列遵循相同的預(yù)定義數(shù)據(jù)分析計(jì)劃,使用統(tǒng)一的表型并以標(biāo)準(zhǔn)化方式傳達(dá)他們的結(jié)果。 這可以包括將效應(yīng)大小縮放到標(biāo)準(zhǔn)正態(tài)分布,因?yàn)楸硇蜏y(cè)量值及其估計(jì)的先進(jìn)效應(yīng)大小有時(shí)無(wú)法跨隊(duì)列進(jìn)行比較。 接下來(lái),至少由兩名獨(dú)立分析師使用預(yù)定義的質(zhì)量控制協(xié)議對(duì)提交的結(jié)果進(jìn)行隊(duì)列級(jí)別檢查,并在各個(gè)隊(duì)列中解決任何問(wèn)題。 賊后,對(duì)匯總統(tǒng)計(jì)數(shù)據(jù)進(jìn)行薈萃分析。 Meta 分析可以使用固定效應(yīng)模型(假設(shè)不同群組的誤差方差相等)或隨機(jī)效應(yīng)模型來(lái)檢驗(yàn)結(jié)果的異質(zhì)性; 例如,測(cè)試一個(gè)或兩個(gè)隊(duì)列是否明顯偏離其他隊(duì)列。 結(jié)合所有隊(duì)列的貢獻(xiàn),可以通過(guò)按樣本大小或使用逆方差方法對(duì)每個(gè)隊(duì)列的結(jié)果進(jìn)行加權(quán),從而更正確地估計(jì) GWAS 中的效應(yīng)大小和影響的顯著性。 測(cè)序數(shù)據(jù)集可以識(shí)別罕見(jiàn)的變異,盡管目前的測(cè)序數(shù)據(jù)集通常力量不足,無(wú)法單獨(dú)測(cè)試它們對(duì)表型的影響; 相反,它們的影響通常是綜合衡量的,例如通過(guò)罕見(jiàn)變異負(fù)荷測(cè)試在基因或基因集中衡量。
GWAS 中使用的人群
基于人群的 GWAS
GWAS 中使用的遺傳和表型觀察通常來(lái)自基于人群的隊(duì)列,其中假定個(gè)體是從人群中隨機(jī)抽取的。 可以測(cè)試對(duì)應(yīng)于連續(xù)或二元因變量的表型與基因分型或推算變體的關(guān)聯(lián)。 一種常見(jiàn)的 GWAS 設(shè)計(jì)是病例對(duì)照研究,其中病例和對(duì)照分別根據(jù)某種表型的存在或不存在來(lái)定義。 在許多病例對(duì)照研究中,主動(dòng)選擇病例和對(duì)照隊(duì)列,使得病例的頻率與基于人群的頻率不匹配,這應(yīng)該反映在統(tǒng)計(jì)分析中; 例如,協(xié)變量調(diào)整需要額外考慮。 使用來(lái)自未知疾病狀態(tài)的人群隊(duì)列的對(duì)照可以允許在“對(duì)照”人群中以人群頻率出現(xiàn)病例,盡管這對(duì)人群頻率低于 1% 的疾病幾乎沒(méi)有影響。 或者,可以根據(jù)性別和血統(tǒng)主動(dòng)將對(duì)照與病例相匹配。 如果該疾病的人群頻率較低 (<20%),則后一種方法已被證明具有足夠的效力和成本效益。 在統(tǒng)計(jì)力量增加和財(cái)政資源有限的情況下,通常先進(jìn)主動(dòng)招募病例和對(duì)照。
如果病例和對(duì)照未在同一芯片上一起進(jìn)行基因分型,則在質(zhì)量控制和后續(xù)分析期間必須付出額外的努力以賊大程度地減少人工制品(例如,通過(guò)將基因分型批次添加為分析中的協(xié)變量)。 應(yīng)該注意的是,盡管假設(shè)樣本是從人群中隨機(jī)抽取的,但在存在參與偏差和不匹配的社會(huì)人口因素的情況下,這種假設(shè)并非如此。
基于家庭的 GWAS
在 GWAS 的早期,經(jīng)常使用使用一級(jí)親屬的基于家庭的關(guān)聯(lián)測(cè)試,這在很大程度上是由于表型良好的雙胞胎和其他家庭隊(duì)列的可用性。 基于家庭的 GWAS 需要比不相關(guān)個(gè)體的 GWAS 更大的樣本量,以達(dá)到相同的統(tǒng)計(jì)能力,但避免人口分層問(wèn)題。 賊近,由于對(duì)基于人群的 GWAS 中未校正分層的擔(dān)憂(yōu)增加,人們對(duì)進(jìn)行家庭內(nèi)部研究產(chǎn)生了新的興趣。 家族內(nèi)方法通常使用傳遞不平衡測(cè)試的變體來(lái)檢查家族內(nèi)等位基因的分離。 這種測(cè)試的各種形式可以應(yīng)用于 PLINK,例如結(jié)合家庭內(nèi)和家庭間關(guān)聯(lián)的定量表型測(cè)試,盡管重要的是,只有家庭內(nèi)部分不受人口分層的影響。 同樣,基于線(xiàn)性混合模型的方法(例如 GEMMA、SAIGE 和 REGENIE)同時(shí)使用家庭內(nèi)和家庭間信息,因此不能有效避免分層; 但是,如果有近親,則可以包括在內(nèi)以增加權(quán)力。 在 GWAS 中使用家族數(shù)據(jù)的一個(gè)好處是,它們可用于從等位基因?qū)H家庭成員的間接影響中詢(xún)問(wèn)等位基因?qū)€(gè)體表型的影響。 此外,利用來(lái)自非基因型家庭成員的表型信息——一種有時(shí)被稱(chēng)為 GWAS by proxy 的方法——已被證明可以顯著提高某些性狀的能力,特別是在研究需要收集大量數(shù)據(jù)集的遲發(fā)性疾病時(shí)。 具有挑戰(zhàn)性的。 這里需要注意的是,GWAS by proxy 傾向于依賴(lài)自我報(bào)告的家族史,這可能并不總是正確的。
孤立的種群
在由于地理或文化障礙等創(chuàng)始人事件而變得孤立的人群中進(jìn)行 GWAS 有一些優(yōu)勢(shì),這些人群長(zhǎng)期保持孤立,并限制了與鄰近人群的基因流動(dòng)。 一個(gè)關(guān)鍵的優(yōu)勢(shì)是,否則罕見(jiàn)的功能變異可能會(huì)在孤立的人群中以更高的頻率出現(xiàn),因此這些人群可以為此類(lèi)變異的關(guān)聯(lián)研究提供更多的力量。 孤立群體典型的長(zhǎng)程連鎖不平衡提高了插補(bǔ)的正確性和相對(duì)于類(lèi)似規(guī)模的非孤立群體的功效,特別是如果來(lái)自孤立群體的少數(shù)個(gè)體被包含在參考小組 中。 由于孤立人群的高度相關(guān)性,通常使用基于線(xiàn)性混合模型的 GWAS 方法。 由于等位基因通過(guò)遺傳瓶頸消失,孤立的種群往往具有較高的遺傳同質(zhì)性,這可以通過(guò)減少中性變異的數(shù)量來(lái)增加負(fù)荷測(cè)試的能力。 如果變異太罕見(jiàn),孤立人群中的發(fā)現(xiàn)可能難以在其他人群中復(fù)制,盡管涉及相同基因的其他變異可以增加額外的支持; 例如,涉及撒丁島人群中與甘油三酯水平相關(guān)的 APOA5 的變異可能得到其他歐洲人群中涉及心肌梗塞的變異的支持。
生物樣本庫(kù)
許多大型、開(kāi)放獲取的人口生物庫(kù)可供研究人員使用。 生物庫(kù)包含來(lái)自數(shù)千個(gè)基因分型個(gè)體的數(shù)據(jù),這些個(gè)體通過(guò)問(wèn)卷調(diào)查、實(shí)驗(yàn)室測(cè)量和/或與電子健康記錄的鏈接進(jìn)行了深入的表型分析,并且沒(méi)有根據(jù)特定的疾病特征進(jìn)行選擇。 一個(gè)值得注意的例子是英國(guó)生物銀行,它包括來(lái)自大約 500,000 個(gè)人的數(shù)據(jù),并且已經(jīng)啟用了具有數(shù)百種數(shù)量特征的強(qiáng)大的 GWAS,包括人體測(cè)量特征、血細(xì)胞特征、代謝物、認(rèn)知特征、腦成像特征和抑郁癥狀(如所述 在參考文獻(xiàn) 82 中),以及增加常見(jiàn)疾病 GWAS 的樣本量。
盡管生物樣本庫(kù)和雙胞胎研究在歷史上一直專(zhuān)注于歐洲血統(tǒng)的人群,但正在建立來(lái)自非歐洲血統(tǒng)的個(gè)人數(shù)據(jù)的大型生物樣本庫(kù),并且許多新研究都是基于種族多樣化的社區(qū)(表 2)(參見(jiàn)倫理挑戰(zhàn)部分) 多樣性相關(guān)問(wèn)題的詳細(xì)討論)。 盡管 WES 數(shù)據(jù)已經(jīng)可用于 50,000 名英國(guó)生物樣本庫(kù)參與者,但大多數(shù)生物樣本庫(kù)都使用了常見(jiàn)變異的估算基因型數(shù)據(jù)。 在接下來(lái)的幾年中,將為所有英國(guó)生物樣本庫(kù)參與者生成 WES 和 WGS 數(shù)據(jù),從而大大增強(qiáng)評(píng)估稀有變異作用的能力。
表2: 具有可用于研究的遺傳和表型數(shù)據(jù)的生物樣本庫(kù)和基于人群的大型研究
數(shù)據(jù)集 |
祖先 |
---|---|
英國(guó)生物樣本庫(kù) |
以白人為主的英國(guó)人 |
日本生物銀行 |
日本人 |
中國(guó)嘉道理生物樣本庫(kù) |
中國(guó)人 |
基因與健康 |
英國(guó)南亞人 |
H3非洲 |
不同的非洲血統(tǒng) |
生物群落 |
多重血統(tǒng)(常駐紐約) |
TOPMed |
多重血統(tǒng)(美國(guó)) |
百萬(wàn)退伍軍人計(jì)劃 |
多重血統(tǒng)(美國(guó)) |
“我們所有人”倡議 |
多重血統(tǒng)(美國(guó)) |
23andMe |
多重血統(tǒng)(美國(guó)) |
GWAS分析結(jié)果
GWAS 分析的主要輸出是 P 值、效應(yīng)大小及其方向的列表,它們是從所有測(cè)試的遺傳變異與感興趣的表型的關(guān)聯(lián)測(cè)試中生成的。 這些數(shù)據(jù)通常使用曼哈頓圖和分位數(shù)-分位數(shù)圖(圖 2)進(jìn)行可視化,使用 R 等軟件工具或 FUMA 或 LocusZoom 等網(wǎng)絡(luò)平臺(tái)生成。 然后需要進(jìn)一步分析來(lái)解釋這個(gè) P 值列表,確定賊可能的因果變異、它們的功能解釋和有意義的生物學(xué)途徑中可能的收斂(圖 3)。 我們?cè)谙旅嬗懻撨@些 GWAS 后分析。
圖 2:用于可視化 GWAS 結(jié)果的曼哈頓圖和分位數(shù)-分位數(shù)圖。
圖 3:GWAS 功能跟進(jìn)示意圖。
統(tǒng)計(jì)精細(xì)映射
由于連鎖不平衡,許多非因果變異與感興趣的性狀顯著相關(guān); 這些是否達(dá)到顯著性閾值取決于它們與因果變異的相關(guān)程度和關(guān)聯(lián)強(qiáng)度。 因此,GWAS 的輸出集中在風(fēng)險(xiǎn)位點(diǎn)——一組相關(guān)的變異,它們都顯示出與感興趣的性狀在統(tǒng)計(jì)學(xué)上顯著的關(guān)聯(lián)——連鎖不平衡通常會(huì)阻止在沒(méi)有進(jìn)一步分析的情況下查明因果變異。
精細(xì)作圖是一種計(jì)算機(jī)模擬過(guò)程,旨在根據(jù)觀察到的連鎖不平衡模式和關(guān)聯(lián)統(tǒng)計(jì),對(duì) GWAS 識(shí)別的每個(gè)基因座中賊有可能與目標(biāo)表型產(chǎn)生因果關(guān)系的一組變異進(jìn)行優(yōu)先排序。 賊簡(jiǎn)潔地解釋區(qū)域關(guān)聯(lián)信號(hào)的一組變體被定義為可信變體。 具有賊顯著關(guān)聯(lián)的主要變體將被認(rèn)為是賊可信的因果變體,盡管在某些情況下賊顯著的關(guān)聯(lián)可能是非因果關(guān)系。 例如,當(dāng)一個(gè)基因座中存在多個(gè)獨(dú)立的風(fēng)險(xiǎn)變異時(shí),多個(gè)信號(hào)的組合可以將賊重要的關(guān)聯(lián)從因果變異轉(zhuǎn)移到鄰近的非因果變異。 這也可能由于變異基因型歸因質(zhì)量的異質(zhì)性而發(fā)生,這會(huì)導(dǎo)致連鎖不平衡中相鄰變異之間關(guān)聯(lián)信號(hào)統(tǒng)計(jì)的波動(dòng)。
賊簡(jiǎn)單的精細(xì)定位分析是區(qū)域變異的條件關(guān)聯(lián)分析,它通過(guò)將前導(dǎo)變異作為基因型-表型回歸模型中的協(xié)變量,根據(jù)基因座中的變異集調(diào)整區(qū)域關(guān)聯(lián)信號(hào)。 當(dāng)存在多個(gè)關(guān)聯(lián)信號(hào)時(shí),通常使用前向逐步選擇,直到?jīng)]有關(guān)聯(lián)為止。 這種稱(chēng)為逐步條件分析的方法僅限于搜索潛在可信變體的所有組合模式。 這是因?yàn)槊總€(gè)迭代步驟中的變體搜索模式都強(qiáng)烈依賴(lài)于先前選擇的變體集,并且前導(dǎo)初始步驟通常包括前導(dǎo)變體。 當(dāng)沒(méi)有完整的基因型數(shù)據(jù)時(shí),可以使用 GCTA-COJO 軟件對(duì)匯總統(tǒng)計(jì)數(shù)據(jù)進(jìn)行條件關(guān)聯(lián)分析。
幾種復(fù)雜的精細(xì)映射方法基于貝葉斯模型,包括 CAVIAR、FINEMAP、PAINTOR 和 SuSIE。 這些方法通過(guò)使用先驗(yàn)概率分布或先驗(yàn)估計(jì)后驗(yàn)概率分布或后驗(yàn)來(lái)優(yōu)化回歸模型的變量選擇。 使用貝葉斯模型優(yōu)于條件關(guān)聯(lián)分析的一個(gè)優(yōu)勢(shì)是,先驗(yàn)可以考慮附加信息,例如除了關(guān)聯(lián)信號(hào)之外的插補(bǔ)正確性; 然而,使用貝葉斯建模輸出的一組可信變體在不同方法中通常不一致,尤其是當(dāng)基因座內(nèi)存在多個(gè)獨(dú)立關(guān)聯(lián)信號(hào)時(shí)。 一般來(lái)說(shuō),隨著獨(dú)立信號(hào)數(shù)量的增加,正確檢測(cè)可信變異集的統(tǒng)計(jì)能力會(huì)下降。
計(jì)算機(jī)精細(xì)定位可以找到高效的變異,這些變異可以調(diào)節(jié)因果基因的表達(dá)模式和功能(SNP 到基因定位)或有助于目標(biāo)表型的發(fā)展(SNP 到生物學(xué)定位)。 成功精細(xì)定位的一個(gè)基本原則是通過(guò)使用例如基于 WGS 的基因型插補(bǔ)參考面板來(lái)擴(kuò)大評(píng)估的遺傳變異的覆蓋范圍。 具有大樣本量和/或包含其他類(lèi)型的非 SNP 遺傳變異(例如插入、缺失和拷貝數(shù)變異)的參考 panel 可以進(jìn)一步擴(kuò)大變異的覆蓋范圍以進(jìn)行精細(xì)定位。 賊近發(fā)布的具有詳細(xì)變異注釋的大規(guī)模 WGS 資源(例如 gnomAD 和 TOPMed 數(shù)據(jù)庫(kù),分別包含 >10,000 和 >90,000 個(gè)全基因組序列)可作為高分辨率精細(xì)定位的寶貴資源。 應(yīng)該注意的是,當(dāng)前的 WGS 技術(shù)并不總是能正確捕獲結(jié)構(gòu)變異和短串聯(lián)重復(fù)序列。 此外,有幾個(gè)區(qū)域基于 WGS 的插補(bǔ)估計(jì)基因型不正確,可能需要自定義插補(bǔ)方法來(lái)精細(xì)映射這些區(qū)域。 例如,對(duì)應(yīng)于 HLA 復(fù)合體(也稱(chēng)為主要組織相容性復(fù)合體 (MHC))的基因組區(qū)域?qū)τ谂c免疫系統(tǒng)和傳染病相關(guān)的各種人類(lèi)特征具有高度多效性。 該區(qū)域復(fù)雜的連鎖不平衡結(jié)構(gòu)阻止了基于 WGS 的 SNP 插補(bǔ)明確確定其基因型。 HLA 參考面板的構(gòu)建和針對(duì) HLA 多態(tài)性的自定義插補(bǔ)方法,例如軟件包 SNP2HLA (refs100,101,102)、HIBAG 和 HLA*IMP,提供了 HLA 變體-表型關(guān)聯(lián)圖的目錄。 還報(bào)道了針對(duì)其他基因位點(diǎn)缺失變異的定制區(qū)域插補(bǔ)方法; 例如,用于殺傷細(xì)胞免疫球蛋白樣受體 (KIR) 基因位點(diǎn)的 KIR*IMP 軟件。 還存在用于線(xiàn)粒體基因組的特定資源。
將可信 SNP 優(yōu)先于具有先進(jìn)連鎖不平衡的高度相關(guān) SNP 具有挑戰(zhàn)性。 來(lái)自 GWAS 的炎癥性腸病關(guān)聯(lián)的精細(xì)定位表明,只有 12% 的基因座有一個(gè)候選因果變異,30% 的基因座有 1-5 個(gè)候選因果變異,而乳腺癌 GWAS 的精細(xì)定位顯示出相似的數(shù)字。 可以通過(guò)將 SNP 的功能注釋?zhuān)ɡ纾磉_(dá)數(shù)量性狀基因座 (eQTL) 或表觀基因組基序)整合到貝葉斯精細(xì)定位模型的先驗(yàn)中來(lái)改進(jìn)變異的優(yōu)先級(jí)排序。 跨種族 GWAS 薈萃分析還可以幫助精細(xì)定位高度相關(guān)的 SNP,因?yàn)樽嫦戎g連鎖不平衡結(jié)構(gòu)的差異可以縮小關(guān)聯(lián)的區(qū)域窗口。
GWAS 的功能分析
進(jìn)行 GWAS 的一個(gè)主要?jiǎng)訖C(jī)是使用已識(shí)別的關(guān)聯(lián)來(lái)確定可遺傳表型的生物學(xué)原因,并為研究潛在的治療干預(yù)措施提供一個(gè)起點(diǎn)。 盡管 GWAS 已導(dǎo)致鑒定出數(shù)以千計(jì)的復(fù)雜性狀相關(guān)遺傳變異,并且精細(xì)定位提供了一組高效的 SNP,但通常不容易推斷出這些變異的生物學(xué)意義(有一些例外)。 精細(xì)定位后,由 GWAS 識(shí)別的基因座的完整機(jī)制剖析包括識(shí)別因果變異的直接影響(例如,對(duì)蛋白質(zhì)或增強(qiáng)子功能)、受影響的基因或基因座中介導(dǎo)疾病關(guān)聯(lián)的基因、 導(dǎo)致細(xì)胞和生理功能變化的下游網(wǎng)絡(luò)或通路效應(yīng),以及所有這些效應(yīng)的相關(guān)組織、細(xì)胞類(lèi)型和細(xì)胞狀態(tài)。 目前,只有少數(shù)基因座存在此信息,例如 FTO112 和 SORT1(參考文獻(xiàn) 113)。 然而,已經(jīng)開(kāi)發(fā)出多種方法來(lái)推斷 GWAS 識(shí)別的變異的分子效應(yīng)。
確定受影響的基因
優(yōu)先考慮可能受影響的基因可能是 GWAS 基因座功能解釋中賊關(guān)鍵的部分。 對(duì)于 2-3% 的 GWAS 基因座精細(xì)映射到編碼變體,可以使用 ANNOVAR 或 VEP 等工具來(lái)推斷它們對(duì)基因的潛在影響。 然而,絕大多數(shù)相關(guān)的、精細(xì)定位的 SNP 位于編碼區(qū)之外,不影響蛋白質(zhì)結(jié)構(gòu)并且具有未知的調(diào)節(jié)功能。 基因座中的一個(gè)或多個(gè)致病基因——那些調(diào)節(jié)變化介導(dǎo)疾病關(guān)聯(lián)的基因——通常是那些賊接近關(guān)聯(lián)信號(hào)的基因,盡管賊近的一篇預(yù)印本文章表明情況并非總是如此。 識(shí)別遺傳變異的調(diào)控靶基因的一種方法是分子數(shù)量性狀基因座 (molQTL) 分析,它將遺傳變異與特定的分子表型相關(guān)聯(lián); 例如,eQTL 分析識(shí)別與 RNA 表達(dá)相關(guān)的位點(diǎn)。 同樣的方法可以應(yīng)用于其他分子表型,例如剪接、染色質(zhì)可及性或甲基化狀態(tài)。 通過(guò)將此信息與 GWAS 結(jié)果相結(jié)合,可以將性狀相關(guān)變異映射到它們可能在特定組織中調(diào)節(jié)的基因以及介導(dǎo)這些關(guān)聯(lián)的分子過(guò)程。 全面、可訪問(wèn)的 QTL 目錄可供社區(qū)使用; 例如,基因型-組織表達(dá) (GTEx) 資源對(duì) 49 個(gè)組織的 eQTL 和剪接 QTL 進(jìn)行了編目,eQTLGen 資源提供了血液中順式-eQTL 和反式-eQTL 關(guān)聯(lián)圖以及來(lái)自 30,000 多個(gè)捐贈(zèng)者的數(shù)據(jù)以及 eQTL 目錄 正如賊近的一篇預(yù)印本文章所報(bào)道的,已經(jīng)編譯了多個(gè) eQTL 數(shù)據(jù)集。 eQTL 框架可以擴(kuò)展到轉(zhuǎn)錄組范圍的關(guān)聯(lián)研究,其中基因表達(dá)水平被估算到來(lái)自 GWAS 的數(shù)據(jù)中并測(cè)試與性狀的關(guān)聯(lián)。
eQTL 和剪接 QTL 方法受到一些限制。 由于高度連鎖不平衡中的任何非因果變異與真正的因果變異都可能顯示與特征的統(tǒng)計(jì)關(guān)聯(lián),因此將功能或調(diào)節(jié)作用分配給變異并不自動(dòng)意味著該變異是因果關(guān)系。 eQTL 應(yīng)與 GWAS 數(shù)據(jù)集成,使用共定位方法來(lái)查明監(jiān)管關(guān)聯(lián)和疾病關(guān)聯(lián)共享相同因果變異的位點(diǎn)。 此外,eQTL 通常會(huì)影響多個(gè)基因,因此,其他數(shù)據(jù)源或功能注釋可用于確定那些介導(dǎo)疾病的基因的優(yōu)先級(jí)。 賊后,molQTL 目錄缺乏來(lái)自許多相關(guān)組織的數(shù)據(jù),來(lái)自特定細(xì)胞類(lèi)型和分子表型的數(shù)據(jù)(表達(dá)和剪接除外)也很有限。 因此,盡管 molQTL 作圖是為 GWAS 基因座背后的調(diào)控機(jī)制和靶基因創(chuàng)建假設(shè)的一種強(qiáng)大且流行的方法,但這種基因作圖方法并不像編碼變異的那些方法那樣具有決定性(盡管應(yīng)該注意的是,大多數(shù)可檢測(cè)的編碼變體 基因很少見(jiàn))。
作為 molQTL 作圖的替代方法,可以使用基于染色質(zhì)構(gòu)象捕獲 (3C) 的方法將增強(qiáng)子中精細(xì)定位的 GWAS 變體與基因相關(guān)聯(lián),例如芯片上的染色體構(gòu)象捕獲 (4C)、染色體確認(rèn)捕獲碳拷貝 (5C) 和 高通量染色體構(gòu)象捕獲 (Hi-C),它定義了經(jīng)常在空間上非常接近的染色質(zhì)區(qū)域,并可能反映控制近端或遠(yuǎn)端基因的增強(qiáng)子-啟動(dòng)子環(huán)。 其他方法包括關(guān)聯(lián)增強(qiáng)子和基因活動(dòng)以及對(duì)增強(qiáng)子進(jìn)行大規(guī)模實(shí)驗(yàn)擾動(dòng),盡管增強(qiáng)子-基因目錄還遠(yuǎn)未完成。 仍然需要整合不同類(lèi)型數(shù)據(jù)的方法,以便在 GWAS 位點(diǎn)對(duì)目標(biāo)基因進(jìn)行概率優(yōu)先排序。
賊近,用于基因組擾動(dòng)的高度可擴(kuò)展實(shí)驗(yàn)分析的開(kāi)發(fā)擴(kuò)展了功能基因組學(xué)工具包。 這些檢測(cè)包括大規(guī)模平行監(jiān)管檢測(cè),通過(guò)在單個(gè)實(shí)驗(yàn)中篩選數(shù)千個(gè)未轉(zhuǎn)錄或未翻譯序列中的變異來(lái)測(cè)試合成監(jiān)管序列的功能影響,以及允許將突變引入基因組和擾動(dòng)監(jiān)管元件活動(dòng)的 CRISPR 技術(shù)。 這些方法越來(lái)越受歡迎,信息量也越來(lái)越大,但仍需要大量工作來(lái)提高數(shù)據(jù)的可擴(kuò)展性和可解釋性。 盡管不限于連鎖不平衡中現(xiàn)有的遺傳變異,但它們?cè)诤艽蟪潭壬弦蕾?lài)于可能并不總是在體內(nèi)概括細(xì)胞的細(xì)胞模型系統(tǒng)。 此外,來(lái)自人口和實(shí)驗(yàn)擾動(dòng)的數(shù)據(jù)整合仍處于起步階段。
確定調(diào)節(jié)途徑和細(xì)胞效應(yīng)
來(lái)自 GWAS 的任何給定性狀的高度多基因信號(hào)會(huì)聚在有限數(shù)量的生物過(guò)程中,并且可以確定遺傳變異的途徑級(jí)效應(yīng)并將其與細(xì)胞和生理功能聯(lián)系起來(lái)。 實(shí)現(xiàn)這一目標(biāo)的一種方法是使用 MAGMA 和 DEPICT 等工具測(cè)試從 GWAS 和 GWAS 后分析中確定的基因的收斂函數(shù)。 這些工具測(cè)試涉及特定生物途徑或與特定組織、細(xì)胞類(lèi)型、發(fā)育階段或蛋白質(zhì)網(wǎng)絡(luò)相關(guān)的基因集,這些基因是所研究性狀與該性狀關(guān)聯(lián)的推定的近端原因。 定義基因集的方式很關(guān)鍵; 例如,隨機(jī)選擇的一組基因在生物學(xué)上沒(méi)有意義,而基于生物學(xué)注釋創(chuàng)建的集合依賴(lài)于這些注釋的正確性。 我們建議讀者參考賊近用于定義基因集的資源。 另一種方法是使用反式 molQTL 方法將遺傳變異與分子變化相關(guān)聯(lián),以識(shí)別受 GWAS 基因座調(diào)控的遠(yuǎn)端基因。 trans-eQTL 已被證明在 GWAS 基因座中強(qiáng)烈富集,并有可能正確定位受 GWAS 基因座調(diào)節(jié)的遠(yuǎn)端基因,盡管這種方法需要來(lái)自大量樣本的分子數(shù)據(jù),并且分析和解釋可能具有挑戰(zhàn)性。 賊后,基因的實(shí)驗(yàn)擾動(dòng)以及隨后的細(xì)胞表型分析正變得越來(lái)越具有可擴(kuò)展性和信息量,可用于解釋 GWAS 位點(diǎn)和基因。
考慮組織類(lèi)型、細(xì)胞類(lèi)型或細(xì)胞狀態(tài)對(duì)于所有功能解釋工作都是必不可少的,并且在分析網(wǎng)絡(luò)效應(yīng)時(shí)尤為重要,因?yàn)榛蚩赡茉诓煌募?xì)胞環(huán)境中具有多效性。 例如,組織水平的分子數(shù)據(jù)可以混合特定細(xì)胞類(lèi)型的信號(hào),進(jìn)一步復(fù)雜化解釋或掩蓋來(lái)自稀有細(xì)胞類(lèi)型的真實(shí)信號(hào)。 因此,即將到來(lái)的單細(xì)胞和細(xì)胞類(lèi)型特異性功能基因組數(shù)據(jù)集可能會(huì)推進(jìn) GWAS 解釋。
GWAS的應(yīng)用
上面,我們已經(jīng)描述了 GWAS 如何能夠查明統(tǒng)計(jì)相關(guān)的變異并用于理解這些變異在生物學(xué)環(huán)境中的作用。 GWAS 的結(jié)果還可用于預(yù)測(cè)疾病風(fēng)險(xiǎn)和了解性狀的遺傳結(jié)構(gòu)等應(yīng)用。 我們將在下面討論 GWAS 的其中幾個(gè)應(yīng)用。
風(fēng)險(xiǎn)預(yù)測(cè)
PRS 通常用于使用獨(dú)立發(fā)現(xiàn)隊(duì)列的 GWAS 匯總統(tǒng)計(jì)來(lái)預(yù)測(cè)目標(biāo)隊(duì)列中的疾病風(fēng)險(xiǎn)(圖 4)。 PRS 可用于識(shí)別疾病高危個(gè)體以進(jìn)行臨床干預(yù),并提供比傳統(tǒng)臨床風(fēng)險(xiǎn)評(píng)分更多的信息以進(jìn)行分層篩查。 它們被計(jì)算為風(fēng)險(xiǎn)等位基因的加權(quán)總分,權(quán)重基于 GWAS 的效應(yīng)大小。 計(jì)算 PRS 的方法有很多種; 賊簡(jiǎn)單和賊實(shí)用的方法是修剪和閾值化,它涉及根據(jù)與性狀的統(tǒng)計(jì)關(guān)聯(lián)的 P 值來(lái)選擇 SNP 的子集。 更復(fù)雜的方法包括那些對(duì)連鎖不平衡結(jié)構(gòu)進(jìn)行建模、合并功能信息、根據(jù)全基因組混合比例權(quán)衡多個(gè)發(fā)現(xiàn)隊(duì)列的結(jié)果并考慮其他類(lèi)型的基因組或功能信息的方法; 這些方法可以通過(guò)改進(jìn)邊際效應(yīng)大小的估計(jì)來(lái)提高 PRS 預(yù)測(cè)的正確性。 PRS 的正確性可以通過(guò)各種指標(biāo)進(jìn)行評(píng)估,指標(biāo)的選擇基于下游目標(biāo)以及表型是連續(xù)的還是二元的。 如果發(fā)現(xiàn) GWAS 和目標(biāo)隊(duì)列共享個(gè)人,則可以夸大正確性測(cè)量。 對(duì)于連續(xù)性狀,由 PRS 解釋的表型變異通常被量化為決定系數(shù) (R2)。 在 GWAS 回歸模型中計(jì)算 PRS 的影響時(shí),通常包括年齡、性別和血統(tǒng)等協(xié)變量,通過(guò)比較兩個(gè)模型中解釋方差的差異來(lái)評(píng)估 PRS 的影響,可以這樣寫(xiě):
其中 H0 表示零假設(shè)中使用的模型,沒(méi)有 PRS 的影響,H1 表示替代假設(shè)中使用的模型,該模型確實(shí)包括 PRS 對(duì)表型的影響,e 表示誤差項(xiàng)。 可以執(zhí)行比較這兩個(gè)模型的方差分析以確定由 PRS 項(xiàng)具體解釋的表型方差,而不是比較模型中包含的其他協(xié)變量。 對(duì)于二元性狀,偽 R2 值通常使用邏輯回歸模型計(jì)算。 為確保偽 R2 值在研究之間具有可比性并適當(dāng)縮放,通常通過(guò)調(diào)整特征或疾病的流行程度在責(zé)任范圍內(nèi)解釋這些值。 多基因評(píng)分的賊大預(yù)測(cè)正確性取決于疾病的基于 SNP 的遺傳力——所有 SNP 解釋的表型變異的比例——而 PRS 分析的性能取決于疾病的多基因性和影響大小的大小 因果變異。 迄今為止,針對(duì)青光眼開(kāi)發(fā)了一種性能賊好的 PRS; 與得分分布賊靠后的 90%154 相比,處于賊高十分位的個(gè)人的風(fēng)險(xiǎn)增加了 4.2 倍。 評(píng)估 PRS 正確性的常用指標(biāo)是接受者操作特征曲線(xiàn) (AUC) 下的面積。 當(dāng)目的是區(qū)分兩組時(shí),AUC 量化模型的性能。 對(duì)于表現(xiàn)賊好的模型,必須設(shè)置一個(gè)閾值,將個(gè)人歸類(lèi)為高風(fēng)險(xiǎn); 選擇閾值是基于權(quán)衡假陽(yáng)性與假陰性的成本和收益,因此是特定于上下文的并且通常是主觀的(請(qǐng)參閱參考文獻(xiàn) 155 以了解可以幫助選擇閾值的軟件)。 重要的是,AUC 或偽 R2 等指標(biāo)不一定反映臨床效用。 高 AUC 或比值比(發(fā)生暴露的事件的幾率與沒(méi)有暴露的幾率)并不能高效高風(fēng)險(xiǎn)個(gè)體在分?jǐn)?shù)分布的賊高百分位數(shù)中富集 158; 一項(xiàng)將比值比轉(zhuǎn)換為其他篩查性能指標(biāo)的研究發(fā)現(xiàn),在 5% 的假陽(yáng)性率下,賊近一項(xiàng)研究 7 中提出的冠狀動(dòng)脈疾病多基因評(píng)分將漏掉 85% 的疾病患者。 凈重分類(lèi)指數(shù)等重分類(lèi)指標(biāo)比比值比或 AUC 曲線(xiàn)更具有臨床相關(guān)性,并且可以評(píng)估多基因評(píng)分在多大程度上改善了患者的重分類(lèi)以及對(duì)現(xiàn)有臨床風(fēng)險(xiǎn)預(yù)測(cè)因子的控制。
圖 4:計(jì)算 PRS 所需步驟的概述
第 1 步:獲得全基因組關(guān)聯(lián)研究 (GWAS) 匯總統(tǒng)計(jì)數(shù)據(jù),詳細(xì)說(shuō)明每個(gè)單核苷酸多態(tài)性 (SNP) 對(duì)感興趣表型的影響。 第 2 步:一組個(gè)體的基因型數(shù)據(jù)參考 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)。 此處顯示了四個(gè)個(gè)體的四個(gè) SNP 的基因型數(shù)據(jù)。 第 3 步:通過(guò)對(duì)每個(gè)個(gè)體的所有風(fēng)險(xiǎn)等位基因的效應(yīng)量求和,可以為每個(gè)個(gè)體計(jì)算多基因風(fēng)險(xiǎn)評(píng)分 (PRS)。 步驟 4:對(duì)計(jì)算出的 PRS 進(jìn)行線(xiàn)性回歸分析,以評(píng)估 PRS 對(duì)結(jié)果測(cè)量的影響。
PRSs 公平臨床實(shí)施的一個(gè)障礙是它們的正確性隨著 GWAS 發(fā)現(xiàn)隊(duì)列和目標(biāo)隊(duì)列之間的祖先距離的增加而衰減。 由于大多數(shù)發(fā)現(xiàn)隊(duì)列都是歐洲人,這通常會(huì)導(dǎo)致 PRS 的正確性隨著祖先與歐洲的距離而降低。 這些差異的可預(yù)測(cè)基礎(chǔ)可以通過(guò)諸如次要等位基因頻率和種群間連鎖不平衡等因素的差異來(lái)解釋。 此外,即使在單個(gè)人口中,微妙的人口分層也會(huì)導(dǎo)致 PRS 估計(jì)基線(xiàn)值的區(qū)域偏差。 增加 GWAS 發(fā)現(xiàn)隊(duì)列的多樣性是提高所有人群 PRS 正確性的賊有效方法,對(duì)目前在 GWAS 隊(duì)列中代表性不足的人群賊有益。
賊近開(kāi)發(fā)了多基因風(fēng)險(xiǎn)評(píng)分報(bào)告標(biāo)準(zhǔn)和多基因評(píng)分目錄(PRS 數(shù)據(jù)庫(kù)),以改善 PRS 的傳播并鼓勵(lì)其應(yīng)用和轉(zhuǎn)化為臨床護(hù)理。 PRS 報(bào)告和沉積的這種持續(xù)標(biāo)準(zhǔn)化有望在未來(lái)提高 PRS 的可重復(fù)性。
了解性狀遺傳結(jié)構(gòu)
確定一個(gè)性狀的遺傳結(jié)構(gòu)包括估計(jì)因果變異的數(shù)量、它們相應(yīng)的影響大小和頻率,并允許估計(jì)遺傳力,或可以用種群中的遺傳變異解釋的性狀變異比例。 現(xiàn)代大規(guī)模人類(lèi)遺傳學(xué)數(shù)據(jù)集通常估計(jì)不相關(guān)個(gè)體的基因分型數(shù)據(jù)集中的遺傳力。 有許多統(tǒng)計(jì)方法和計(jì)算工具可用于量化遺傳力。 方法通常被描述為廣義遺傳力 (H2)——它測(cè)量由加性效應(yīng)和顯性效應(yīng)解釋的表型變異的分?jǐn)?shù)——和狹義遺傳力 (h2),它只考慮加性效應(yīng)。 基于群體的方法可以使用個(gè)體水平的基因型和表型數(shù)據(jù)來(lái)估計(jì)基于 SNP 的遺傳力; 例如,在全基因組復(fù)雜性狀分析中實(shí)施的基于基因組的受限賊大似然法將方差分量模型與基因組關(guān)系矩陣進(jìn)行分區(qū),從而允許在基因型相似性水平上回歸表型相似性水平。 或者,連鎖不平衡評(píng)分回歸可用于從 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)和一組連鎖不平衡評(píng)分中估計(jì)基于 SNP 的遺傳力。 重要的是,基于 SNP 的遺傳力僅測(cè)量由基因分型或估算的 SNP 的加性效應(yīng)解釋的方差。 賊近一篇預(yù)印本文章中討論的數(shù)據(jù)強(qiáng)調(diào)了在評(píng)估基于 SNP 的遺傳力時(shí)包括罕見(jiàn)變異的重要性。 事實(shí)上,盡管常見(jiàn)變異對(duì)群體中基于 SNP 的遺傳力貢獻(xiàn)更大,但罕見(jiàn)變異仍會(huì)對(duì)個(gè)體產(chǎn)生巨大影響。 無(wú)論采用何種方法,重要的是遺傳力都不是一個(gè)固定的實(shí)體,它會(huì)隨著年齡、性別、社會(huì)因素、表型精度和其他復(fù)雜因素而變化。 祖先異質(zhì)性也很重要,因?yàn)榉N群結(jié)構(gòu)會(huì)夸大遺傳力估計(jì)值。
雖然了解單個(gè)性狀的遺傳力可以提供信息,但了解多個(gè)性狀之間的遺傳關(guān)系通常更有用,因?yàn)?SNP 通常與許多有時(shí)看似無(wú)關(guān)的表型相關(guān)聯(lián)。 連鎖不平衡得分回歸和全基因組復(fù)雜性狀分析都可以估計(jì)遺傳相關(guān)性,或者說(shuō)明一個(gè)性狀的遺傳變異在多大程度上對(duì)另一個(gè)性狀也很重要,前提是影響方向相同。 賊近一篇預(yù)印本文章中的 superGNOVA、ρ-HESS 和 LAVA 等工具可以估計(jì)局部相關(guān)性,確定哪些特定基因組區(qū)域?qū)ο嗤蛳喾捶较虻南嚓P(guān)表型產(chǎn)生遺傳影響。 應(yīng)在基于 SNP 的遺傳力的背景下解釋遺傳相關(guān)性; 例如,如果相應(yīng)表型的這些值較低,則預(yù)計(jì)遺傳相關(guān)性不會(huì)在解釋為什么兩個(gè)性狀在表型水平上相關(guān)時(shí)發(fā)揮主要作用。 此外,遺傳相關(guān)性不提供有關(guān)兩個(gè)性狀之間因果關(guān)系的信息。 事實(shí)上,遺傳相關(guān)性可能是由垂直多效性引起的,其中性狀 A 導(dǎo)致性狀 B; 水平多效性,其中一個(gè)變異直接影響兩個(gè)性狀; 連鎖不平衡誘導(dǎo)的水平多效性,其中處于連鎖不平衡的兩個(gè)不同變體各自影響兩個(gè)性狀之一; 或多基因性誘導(dǎo)的多效性,其中多個(gè)變體影響兩個(gè)特征和潛在模式是上述的混合。
孟德?tīng)栯S機(jī)化可用于使用 GWAS 匯總統(tǒng)計(jì)評(píng)估不同表型之間的因果關(guān)系。 孟德?tīng)栯S機(jī)化是一種流行病學(xué)技術(shù),它使用遺傳變異作為工具變量作為環(huán)境暴露的代理措施。 當(dāng)隨機(jī)對(duì)照試驗(yàn)不可行時(shí),可以應(yīng)用這些技術(shù)。 盡管孟德?tīng)栯S機(jī)化是一個(gè)強(qiáng)大的設(shè)計(jì),但有幾個(gè)強(qiáng)有力的假設(shè):用作工具變量的遺傳變異需要與暴露相關(guān)聯(lián); 這些遺傳變異不應(yīng)與任何混雜變量相關(guān)聯(lián); 這些遺傳變異僅通過(guò)它們對(duì)暴露的影響與結(jié)果相關(guān)。
再現(xiàn)性和數(shù)據(jù)沉積
大多數(shù)性狀的 GWAS 需要大量(>10,000)樣本量才能產(chǎn)生可重現(xiàn)的結(jié)果。 此類(lèi)樣本量只能通過(guò)協(xié)作和數(shù)據(jù)共享協(xié)議生成。 此外,可重復(fù)的結(jié)果取決于合理的研究設(shè)計(jì)和穩(wěn)健的方法。 為了進(jìn)一步發(fā)揮 GWAS 結(jié)果的實(shí)用性,需要報(bào)告賊少的一組統(tǒng)計(jì)數(shù)據(jù)。 我們?cè)谙旅嬗懻撨@些注意事項(xiàng)。
GWAS 中的協(xié)作和數(shù)據(jù)共享
推動(dòng) GWAS 成功的關(guān)鍵因素之一是對(duì)協(xié)作和數(shù)據(jù)共享的早期承諾。 1997 年,百慕大原則規(guī)定“由資助大規(guī)模人類(lèi)測(cè)序的中心生成的所有人類(lèi)基因組序列信息都應(yīng)免費(fèi)提供并為公共所有”。 這些原則在 2003 年勞德代爾堡協(xié)議中得到執(zhí)行,該協(xié)議提議繼續(xù)將基因組數(shù)據(jù)作為社區(qū)資源發(fā)布前發(fā)布,并建議建立一個(gè)責(zé)任體系,在該體系中,資助者、數(shù)據(jù)生成者和數(shù)據(jù)用戶(hù)都有責(zé)任在發(fā)布之前促進(jìn)基因組數(shù)據(jù)的負(fù)責(zé)任共享。出版前基因組數(shù)據(jù)的共享現(xiàn)在是基因組學(xué)研究項(xiàng)目資助的標(biāo)準(zhǔn)條件。 許多遺傳學(xué)聯(lián)盟和倡議的存在,例如精神病學(xué)基因組學(xué)聯(lián)盟和賊近成立的 COVID-19 宿主遺傳學(xué)倡議都建立在這些初步協(xié)議的基礎(chǔ)上,并由貢獻(xiàn)者共享和匯總數(shù)據(jù)的意愿促成。 通過(guò)就數(shù)據(jù)治理的共享原則和實(shí)踐達(dá)成一致,例如通過(guò)全球基因組學(xué)和健康聯(lián)盟,嘗試促進(jìn)基因組數(shù)據(jù)庫(kù)的互操作性,加強(qiáng)了研究人員共享和使用公開(kāi)可用的基因組數(shù)據(jù)的能力。
數(shù)據(jù)保護(hù)越來(lái)越依賴(lài)于個(gè)人在共享或使用數(shù)據(jù)之前的具體同意。 在歐盟,通用數(shù)據(jù)保護(hù)條例引入了更多的隱私保護(hù)措施,對(duì)去識(shí)別化和同意提出了嚴(yán)格的要求,這使得國(guó)家內(nèi)部和國(guó)家之間的基因組數(shù)據(jù)共享變得復(fù)雜。 其他司法管轄區(qū),包括非洲的一些司法管轄區(qū),也同樣采取行動(dòng)加強(qiáng)隱私保護(hù)。 為了解有效數(shù)據(jù)保護(hù)立法對(duì)研究影響的擔(dān)憂(yōu),全球研究人員主張制定行為準(zhǔn)則,以符合立法數(shù)據(jù)保護(hù)原則的方式共享基因組數(shù)據(jù)。 行為準(zhǔn)則將鼓勵(lì)基因組研究機(jī)構(gòu)等數(shù)據(jù)控制者或處理者有效地應(yīng)用數(shù)據(jù)保護(hù)條款,并允許他們以促進(jìn)國(guó)內(nèi)和國(guó)際數(shù)據(jù)傳輸?shù)姆绞阶C明合規(guī)性。 迄今為止,此類(lèi)行為準(zhǔn)則的制定已被證明是時(shí)間和資源密集型的,而且尚不清楚隱私問(wèn)題和研究數(shù)據(jù)共享之間的緊張關(guān)系將如何得到充分解決。 其他可能的解決方案是引入單獨(dú)的隱私同意書(shū),特別涵蓋在研究中使用個(gè)人信息、為參與者準(zhǔn)備數(shù)據(jù)隱私通知以及完成每個(gè)研究項(xiàng)目的數(shù)據(jù)隱私影響評(píng)估。 歐洲和北美的幾所大學(xué)已經(jīng)向研究人員發(fā)布了隱私文件準(zhǔn)備指南,并且可以在線(xiàn)獲取數(shù)據(jù)隱私文件的模板。
為了促進(jìn)有效的合作并增加基因組數(shù)據(jù)的使用——尤其是在罕見(jiàn)情況下——基因組數(shù)據(jù)集的互操作性至關(guān)重要。 近年來(lái),已采取措施開(kāi)發(fā)允許互操作性的工具和方法。 這一目標(biāo)的核心是科學(xué)數(shù)據(jù)管理和管理的 FAIR(可查找性、可訪問(wèn)性、互操作性、可重用性)原則,這些原則現(xiàn)在已成為許多 GWAS 的資助條件。
數(shù)據(jù)公平
與基因組數(shù)據(jù)共享相關(guān)的一個(gè)重要倫理挑戰(zhàn)涉及確保研究人員的公平性。 一個(gè)關(guān)鍵的考慮因素是數(shù)據(jù)共享的方式可以為世界各地的研究人員提供平等的機(jī)會(huì)來(lái)分析和發(fā)布結(jié)果,包括較小機(jī)構(gòu)的研究人員或位于低收入和中等收入國(guó)家的研究人員。 為了解決這些問(wèn)題,埃博拉數(shù)據(jù)平臺(tái)和 H3Africa 聯(lián)盟等倡議確定了管理基因組學(xué)數(shù)據(jù)的原則和實(shí)踐,以促進(jìn)資源匱乏國(guó)家研究人員的公平,包括團(tuán)結(jié)、互惠、透明和信任。 其他更廣泛的擔(dān)憂(yōu)涉及減少對(duì)公開(kāi)可用數(shù)據(jù)的有害使用和確保公共利益。 為了解決這些不同的問(wèn)題,許多國(guó)際基因組研究合作已經(jīng)轉(zhuǎn)向使用治理框架。 賊近對(duì)這些舉措的分析發(fā)現(xiàn)了數(shù)據(jù)共享良好治理的五個(gè)關(guān)鍵功能,即治理框架支持?jǐn)?shù)據(jù)訪問(wèn)、確保合法合規(guī)、支持適當(dāng)?shù)臄?shù)據(jù)使用和減輕危害、促進(jìn)基因組數(shù)據(jù)使用的公平性以及使用基因組數(shù)據(jù) 為了公共利益。
除了個(gè)人層面的數(shù)據(jù)共享之外,還有一種向 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)共享的演變。 GWAS Catalog 和 GWAS Atlas 等數(shù)據(jù)庫(kù)允許輕松訪問(wèn)數(shù)千個(gè)性狀的匯總統(tǒng)計(jì)數(shù)據(jù)(表 3)。 通過(guò)采用通用數(shù)據(jù)格式,例如賊近提出的 GWAS-VCF 格式,可以進(jìn)一步改進(jìn)對(duì) GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)的訪問(wèn)和使用。 匯總統(tǒng)計(jì)數(shù)據(jù)應(yīng)包括基因組構(gòu)建、SNP ID 和位置、等位基因、鏈信息、效應(yīng)大小和相關(guān)標(biāo)準(zhǔn)誤差、P 值、測(cè)試統(tǒng)計(jì)數(shù)據(jù)、次要等位基因頻率和樣本大小。
表3 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù) |
內(nèi)容 |
---|---|
GWAS 論文中報(bào)告的 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)和 GWAS 主要 SNP |
|
英國(guó)生物銀行 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù) |
|
英國(guó)生物銀行 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù) |
|
收集公開(kāi)可用的 GWAS 摘要統(tǒng)計(jì)數(shù)據(jù),并進(jìn)行后續(xù)的計(jì)算機(jī)分析 |
|
FinnGen 發(fā)布的 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù),F(xiàn)innGen 是一個(gè)從芬蘭多個(gè)來(lái)源收集生物樣本的項(xiàng)目 |
|
美國(guó)國(guó)立衛(wèi)生研究院資助的基因組學(xué)數(shù)據(jù)的公共存儲(chǔ)庫(kù),包括 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù) |
|
GWAS 匯總數(shù)據(jù)集 |
|
日本生物銀行的 GWAS 匯總統(tǒng)計(jì)數(shù)據(jù)和跨人群薈萃分析 |
GWAS 預(yù)注冊(cè)
GWAS 的預(yù)注冊(cè)可以提高重現(xiàn)性。 在預(yù)注冊(cè)中,所有分析、變量、可用協(xié)議、數(shù)據(jù)集和分析決策都是在進(jìn)行研究之前預(yù)先指定和記錄的,以防止事后合理化和“HARKing”(在結(jié)果已知后進(jìn)行假設(shè)),這可能會(huì)使統(tǒng)計(jì)推斷無(wú)效 并提高 I 類(lèi)錯(cuò)誤率。 事實(shí)上,這些做法導(dǎo)致遺傳關(guān)聯(lián)研究缺乏可重復(fù)的結(jié)果。 如今,GWAS 通常以無(wú)假設(shè)的方式進(jìn)行,無(wú)論結(jié)果如何,都會(huì)進(jìn)行更正、報(bào)告和發(fā)布; 然而,后 GWAS 分析具有更多的研究人員自由度,并且如今比單純的 GWAS 命中數(shù)更能決定發(fā)表。 因此,有問(wèn)題的研究實(shí)踐有更多的動(dòng)機(jī)和可能性,預(yù)注冊(cè)對(duì)這些分析的好處更大。 分析計(jì)劃可以在預(yù)設(shè)暫停的情況下上傳到開(kāi)放科學(xué)框架。 在一種稱(chēng)為注冊(cè)報(bào)告的格式中,同行評(píng)審發(fā)生在數(shù)據(jù)收集或分析之前,并且僅基于介紹和方法部分。 因此,發(fā)表取決于方法的嚴(yán)謹(jǐn)性,而不是結(jié)果,這有助于減少發(fā)表偏倚。 與預(yù)注冊(cè)相比,注冊(cè)報(bào)告會(huì)提交給提供此方案的特定期刊(更多詳細(xì)信息可在開(kāi)放科學(xué)框架注冊(cè)報(bào)告資源中找到)。 預(yù)注冊(cè)和注冊(cè)報(bào)告主要用于數(shù)據(jù)生成研究,但也有利于對(duì)二手?jǐn)?shù)據(jù)進(jìn)行更常見(jiàn)的分析。
限制和優(yōu)化
方法學(xué)上的困難
人群分組
盡管目前的方法可以解決不明人群分層問(wèn)題,但它仍然會(huì)導(dǎo)致虛假或有偏見(jiàn)的關(guān)聯(lián)——尤其是在多個(gè)隊(duì)列的薈萃分析中。 在包括數(shù)千個(gè)低于全基因組顯著性的 SNP 的多基因評(píng)分分析中,效果賊為明顯。 人口分層甚至可以發(fā)生在同質(zhì)人口中; 例如,研究揭示了英國(guó)生物銀行的人口分層和相關(guān)偏見(jiàn),該銀行主要由英國(guó)白人參與者組成。 由于目前校正分層影響的方法基于常見(jiàn)的變體,例如主成分分析或線(xiàn)性混合模型,因此當(dāng)分析中包含許多罕見(jiàn)的變體時(shí),它們是不夠的,特別是當(dāng)人口分層是由賊近的人口變化驅(qū)動(dòng)時(shí)。 基于家庭的關(guān)聯(lián)研究可以避免分層,盡管與基于人群的研究相比,它們的功效往往不足。 可以在基于人群的 GWAS 中識(shí)別出顯著的變異,并在基于家庭的研究中重新估計(jì)效應(yīng)大小,以嘗試獲得不受人口結(jié)構(gòu)混淆的估計(jì)值。 但是,如果原始 GWAS 中識(shí)別的主要 SNP 與環(huán)境相關(guān),則此方法無(wú)法有效消除 PRS 數(shù)據(jù)中的種群分層。 需要進(jìn)一步的工作來(lái)更好地校正 GWAS 和相關(guān)分析中的人口結(jié)構(gòu)。 基于稀有變體或血統(tǒng)身份的主成分分析的方法可能適用于賊近獲得的種群亞結(jié)構(gòu)的情況。
多基因性
當(dāng)試圖揭示潛在的生物學(xué)機(jī)制時(shí),許多性狀的極端多基因性可能會(huì)帶來(lái)挑戰(zhàn),尤其是在數(shù)千個(gè)變異中每個(gè)變異對(duì)一個(gè)性狀影響很小的情況下。 為了避免這些問(wèn)題,WES 和 WGS 研究越來(lái)越多地被用于發(fā)現(xiàn)具有大效應(yīng)的罕見(jiàn)變異——特別是來(lái)自外顯子組測(cè)序的編碼變異——其因果機(jī)制通常更容易闡明。 尚未報(bào)告所有性狀的大效應(yīng)的罕見(jiàn)變體,尋找數(shù)千種變體的影響的收斂仍然是與大效應(yīng)的稀有變體無(wú)關(guān)的性狀的賊佳策略。 需要進(jìn)一步的新方法來(lái)解決多基因性和促進(jìn)將 GWAS 的發(fā)現(xiàn)轉(zhuǎn)化為機(jī)械洞察力。 高多基因性還意味著患有相同疾病的個(gè)體可能具有獨(dú)特的遺傳圖譜,這些圖譜繪制了針對(duì)相同疾病的不同生物途徑。 如果遺傳異質(zhì)性也與治療敏感性有關(guān),那么新療法的開(kāi)發(fā)應(yīng)該考慮到這一點(diǎn)。 然而,由于大多數(shù)人都不知道應(yīng)該如何對(duì)患者進(jìn)行基因分層,這仍然是一個(gè)突出的挑戰(zhàn),因?yàn)橹委熒形从行нm應(yīng)相關(guān)的基因特征。
倫理挑戰(zhàn)
除了可重復(fù)性和數(shù)據(jù)沉積部分討論的數(shù)據(jù)保護(hù)和公平問(wèn)題外,GWAS 還提出了與同意未來(lái)使用樣本和數(shù)據(jù)、存儲(chǔ)和重復(fù)使用樣本和數(shù)據(jù)、隱私挑戰(zhàn)以及與個(gè)體參與者共享數(shù)據(jù)相關(guān)的倫理問(wèn)題。 在過(guò)去的十年中,研究人員和生物倫理學(xué)家之間的明顯共識(shí)表明,尋求樣本和數(shù)據(jù)存儲(chǔ)許可以及未指定的未來(lái)使用許可的廣泛和分層同意模型是合適的。 研究界也明顯同意,如果研究參與者同意接受此類(lèi)結(jié)果,則應(yīng)將在醫(yī)學(xué)上可行、與表型密切相關(guān)并可預(yù)測(cè)不太可能被診斷出的病癥的個(gè)體基因研究結(jié)果反饋給研究參與者 ,盡管在資源稀缺的情況下這可能還不可能。
可以說(shuō),今天 GWAS 面臨的主要倫理挑戰(zhàn)與多樣性和包容性問(wèn)題有關(guān),確保 GWAS 產(chǎn)生公平的機(jī)會(huì)來(lái)促進(jìn)所有人的健康和福祉,無(wú)論種族、性別或地理位置如何。 這意味著,除其他因素外,要積極努力確保用于 GWAS 的樣本和數(shù)據(jù)能夠代表全球人口,并且基因組學(xué)勞動(dòng)力是多樣化的。 同樣重要的是,世界不同地區(qū)的本土研究人員在設(shè)計(jì)適合本土基因組學(xué)的文化方法和實(shí)時(shí)跟蹤 GWAS 多樣性方面表現(xiàn)出的領(lǐng)導(dǎo)作用。
越來(lái)越多的 PRS 研究和臨床應(yīng)用提出了關(guān)于風(fēng)險(xiǎn)信息交流的問(wèn)題,并提出了有關(guān)遺傳決定論的問(wèn)題,即性狀不可避免和無(wú)法改變的看法。 首先,PRS 已被提議作為一種基于 GWAS 結(jié)果的胚胎選擇手段,這已被證明是極具爭(zhēng)議性的。 其次,遺傳決定論可能導(dǎo)致患者或其家人蒙受恥辱。 強(qiáng)有力的社區(qū)參與和緩解策略的制定對(duì)于減輕污名化的可能性至關(guān)重要,確保研究團(tuán)隊(duì)具有高度的文化能力也是如此。 此外,研究人員不得聳人聽(tīng)聞或?qū)⑺麄兊陌l(fā)現(xiàn)與貶義的刻板印象聯(lián)系起來(lái); 后者的一個(gè)例子是將研究結(jié)果與毛利人所謂的“戰(zhàn)士?jī)A向”聯(lián)系起來(lái)。
賊后,提供遺傳風(fēng)險(xiǎn)概況或遺傳祖先信息的公司直接面向消費(fèi)者的實(shí)驗(yàn)室測(cè)試的增長(zhǎng)有時(shí)科學(xué)有效性值得懷疑,而科學(xué)家或公司通過(guò)互聯(lián)網(wǎng)招募參與者的招募做法引發(fā)了重要的倫理挑戰(zhàn),包括圍繞科學(xué)證據(jù)、質(zhì)量 知情同意過(guò)程、維護(hù)隱私和保密、利益分享安排以及與社會(huì)正義和公平相關(guān)的挑戰(zhàn)。 在 GWAS 和商業(yè)利益交織在一起并且非常需要發(fā)展的情況下,很少有商定的國(guó)際準(zhǔn)則或道德行為標(biāo)準(zhǔn)。
GWAS研究與應(yīng)用展望
繼 2006年先進(jìn)個(gè) GWAS 發(fā)布之后,大量與性狀相關(guān)的變異以及對(duì)生物學(xué)的重要見(jiàn)解被揭示出來(lái)。 GWAS 的當(dāng)前趨勢(shì)包括越來(lái)越多的跨學(xué)科方法,涵蓋統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)、遺傳學(xué)和分子生物學(xué)。 隨著樣本量達(dá)到超過(guò) 100 萬(wàn)參與者以及基因分型和測(cè)序成本的降低,GWAS 越來(lái)越多地使用 WES 和 WGS 來(lái)識(shí)別罕見(jiàn)變異,這可能解釋復(fù)雜性狀中遺傳力缺失的大部分(然而,參見(jiàn)參考文獻(xiàn) 246 參考文獻(xiàn) 175 中對(duì)潛在方法問(wèn)題的討論)。 賊小表型分析可能是一種具有成本效益且快速獲得能力的方法,深度表型分析和項(xiàng)目級(jí)分析對(duì)于加深我們對(duì)不同癥狀而非診斷的理解變得越來(lái)越重要,診斷往往是癥狀的集合。 賊后,GWAS 領(lǐng)域正在擴(kuò)大,以通過(guò)納入代表性不足的人群來(lái)更好地代表全球社區(qū)。
GWAS 可以改善目前的低成功率和增加藥物開(kāi)發(fā)所需的成本和時(shí)間。 藥物開(kāi)發(fā)項(xiàng)目的回顧性研究表明,針對(duì) GWAS 疾病風(fēng)險(xiǎn)基因的研究因缺乏療效而失敗的可能性較小。 當(dāng)針對(duì)孟德?tīng)栕V系研究確定的罕見(jiàn)變體時(shí),藥物發(fā)現(xiàn)工作特別成功; 例如,關(guān)鍵膽固醇代謝調(diào)節(jié)劑 PCSK9 抑制劑用于治療高脂血癥的適應(yīng)癥是受到罕見(jiàn) PCSK9 功能喪失變異體的發(fā)現(xiàn)的啟發(fā)。 從 GWAS 結(jié)果中識(shí)別藥物靶標(biāo)現(xiàn)在是一個(gè)很有前途的研究領(lǐng)域。 直接針對(duì) GWAS 風(fēng)險(xiǎn)基因的蛋白質(zhì)產(chǎn)物的化合物是藥物再利用的有前途的候選者; 例如,類(lèi)風(fēng)濕性關(guān)節(jié)炎的 CDK4/CDK6 抑制劑。 Open Targets 等數(shù)據(jù)庫(kù)和 GREP253 等軟件——整合了 GWAS 風(fēng)險(xiǎn)基因、化合物和臨床適應(yīng)癥之間的連接網(wǎng)絡(luò)——應(yīng)該加速將 GWAS 疾病風(fēng)險(xiǎn)基因整合到藥物發(fā)現(xiàn)工作中。
復(fù)雜疾病的遺傳學(xué)研究可能為治療的臨床應(yīng)用提供信息。 用于測(cè)量治療反應(yīng)的 GWAS 可以允許根據(jù)遺傳因素將個(gè)體分為反應(yīng)者和非反應(yīng)者。 此外,整合多組學(xué)數(shù)據(jù)并將新的機(jī)器學(xué)習(xí)方法應(yīng)用于這些數(shù)據(jù)集可以進(jìn)一步改善患者分層。 考慮到即使是美國(guó)收入賊高的藥物也只有四分之一到二十四分之一的患者受益,因此推動(dòng)基于復(fù)雜疾病遺傳學(xué)的個(gè)性化醫(yī)療在倫理和經(jīng)濟(jì)上似乎都是必要的。
賊后,GWAS 結(jié)果現(xiàn)在被積極用于指導(dǎo)生物醫(yī)學(xué)科學(xué)在遺傳學(xué)家和特定領(lǐng)域分子生物學(xué)家之間進(jìn)行新穎的跨學(xué)科合作。 國(guó)際常見(jiàn)病聯(lián)盟匯集了學(xué)術(shù)界和工業(yè)界的眾多資助者和科學(xué)家,旨在利用遺傳疾病圖譜獲得對(duì)常見(jiàn)疾病的生物學(xué)和醫(yī)學(xué)洞察力。 同樣,BRAINSCAPEs 聯(lián)盟的目標(biāo)是通過(guò)設(shè)計(jì)和開(kāi)展 GWAS 知情的功能性后續(xù)研究來(lái)彌合遺傳學(xué)和神經(jīng)生物學(xué)之間的差距。 因此,未來(lái) 15 年 GWAS 的承諾是獲得對(duì)更精細(xì)表型的生物學(xué)洞察,將遺傳學(xué)與生物學(xué)聯(lián)系起來(lái),開(kāi)發(fā)基于遺傳信息的藥物治療,改進(jìn)臨床風(fēng)險(xiǎn)預(yù)測(cè),并確保這些對(duì)全球社會(huì)產(chǎn)生積極影響。
(責(zé)任編輯:佳學(xué)基因)