【佳學(xué)基因測(cè)序技術(shù)】RNAseq統(tǒng)計(jì)程序、軟件數(shù)據(jù)模板:基因檢測(cè)機(jī)構(gòu)培訓(xùn)教材
RNA差異化表達(dá)分析的輸入數(shù)據(jù)是基于計(jì)數(shù)的統(tǒng)計(jì)方法,共享開源軟件如DESeq2、edgeR、limma、voom、DSS、EBSeq和baySeq采用的數(shù)據(jù)是RNA seq或其他高通量測(cè)序?qū)嶒?yàn)。這些數(shù)據(jù)需要以整數(shù)值矩陣的形式。矩陣行是基因名稱,矩陣的列是樣本名稱,而數(shù)值是信號(hào)讀取值。類似地,對(duì)于其他類型的分析,矩陣行可能對(duì)應(yīng)于例如結(jié)合區(qū)(具有芯片序列)、細(xì)菌種類(具有宏基因組數(shù)據(jù)集),或肽序列(使用定量質(zhì)譜)。
矩陣中的值應(yīng)為序列讀取/片段計(jì)數(shù)。這對(duì)于保持DESeq2的統(tǒng)計(jì)模型很重要,因?yàn)橹挥杏?jì)數(shù)才能正確評(píng)估測(cè)量精度。先進(jìn)不要提供針對(duì)測(cè)序深度/庫大小預(yù)先標(biāo)準(zhǔn)化的計(jì)數(shù),因?yàn)榻y(tǒng)計(jì)模型在應(yīng)用于未標(biāo)準(zhǔn)化計(jì)數(shù)時(shí)賊為強(qiáng)大,其目的是在內(nèi)部解釋庫大小差異。
在基因檢測(cè)和測(cè)序機(jī)構(gòu)學(xué)習(xí)如何將測(cè)序結(jié)果匹配到參考基因組,并對(duì)RNA測(cè)序片段進(jìn)行計(jì)數(shù)之前,佳學(xué)基因向大家介紹一種先進(jìn)的轉(zhuǎn)錄本(基因表達(dá))豐度量化方法,比如Salmon、Sailfish、kallisto、和RSEM等方法??梢栽诓贿M(jìn)行序列匹配的情況下對(duì)轉(zhuǎn)錄本序列的表達(dá)進(jìn)行計(jì)數(shù)。然后使用tximport軟件包進(jìn)行基因組組裝并生成表達(dá)計(jì)數(shù)和偏移矩陣,從而為使用差異基因表達(dá)分析準(zhǔn)備好數(shù)據(jù)。
關(guān)于如何使用Salmon軟件量化轉(zhuǎn)錄本豐度的教程可以參閱佳學(xué)基因的其他基因檢測(cè)基因測(cè)序技術(shù)文章。佳學(xué)基因建議使用--gcBias來估計(jì)RNA-seq數(shù)據(jù)中普遍存在的系統(tǒng)偏差的校正因子。在采用Salmon數(shù)據(jù)處理之后,可以使用tximport構(gòu)建DESeqDataSet。這是佳學(xué)基因?yàn)榛驕y(cè)序?qū)W員單位推薦的RNA測(cè)序分析流程。
結(jié)合轉(zhuǎn)錄物豐度量化和tximport以產(chǎn)生基因水平計(jì)數(shù)矩陣和標(biāo)準(zhǔn)化偏移量的優(yōu)點(diǎn)是:該方法校正了樣本間基因長度的任何潛在變化(例如,同一基因的不同轉(zhuǎn)錄本);與基于對(duì)齊的方法相比,其中一些方法速度更快,所需的內(nèi)存和磁盤使用量更少;而且可以避免丟棄那些可以與多個(gè)具有同源序列的基因?qū)R的片段。請(qǐng)注意,轉(zhuǎn)錄本豐度量詞跳過存儲(chǔ)讀取比對(duì)的大型文件的生成,而生成存儲(chǔ)每個(gè)轉(zhuǎn)錄本的豐度、計(jì)數(shù)和有效長度的較小文件。
(責(zé)任編輯:佳學(xué)基因)