【佳學(xué)基因測(cè)序技術(shù)】RNAseq統(tǒng)計(jì)程序、軟件數(shù)據(jù)模板：基因檢測(cè)機(jī)構(gòu)培訓(xùn)教材

RNA差異化表達(dá)分析的輸入數(shù)據(jù)是基于計(jì)數(shù)的統(tǒng)計(jì)方法，共享開源軟件如DESeq2、edgeR、limma、voom、DSS、EBSeq和baySeq采用的數(shù)據(jù)是RNA seq或其他高通量測(cè)序?qū)嶒?yàn)。這些數(shù)據(jù)需要以整數(shù)值矩陣的形式。矩陣行是基因名稱，矩陣的列是樣本名稱，而數(shù)值是信號(hào)讀取值。類似地，對(duì)于其他類型的分析，矩陣行可能對(duì)應(yīng)于例如結(jié)合區(qū)（具有芯片序列）、細(xì)菌種類（具有宏基因組數(shù)據(jù)集），或肽序列（使用定量質(zhì)譜）。

矩陣中的值應(yīng)為序列讀取/片段計(jì)數(shù)。這對(duì)于保持DESeq2的統(tǒng)計(jì)模型很重要，因?yàn)橹挥杏?jì)數(shù)才能正確評(píng)估測(cè)量精度。先進(jìn)不要提供針對(duì)測(cè)序深度/庫大小預(yù)先標(biāo)準(zhǔn)化的計(jì)數(shù)，因?yàn)榻y(tǒng)計(jì)模型在應(yīng)用于未標(biāo)準(zhǔn)化計(jì)數(shù)時(shí)賊為強(qiáng)大，其目的是在內(nèi)部解釋庫大小差異。

在基因檢測(cè)和測(cè)序機(jī)構(gòu)學(xué)習(xí)如何將測(cè)序結(jié)果匹配到參考基因組，并對(duì)RNA測(cè)序片段進(jìn)行計(jì)數(shù)之前，佳學(xué)基因向大家介紹一種先進(jìn)的轉(zhuǎn)錄本（基因表達(dá)）豐度量化方法，比如Salmon、Sailfish、kallisto、和RSEM等方法?？梢栽诓贿M(jìn)行序列匹配的情況下對(duì)轉(zhuǎn)錄本序列的表達(dá)進(jìn)行計(jì)數(shù)。然后使用tximport軟件包進(jìn)行基因組組裝并生成表達(dá)計(jì)數(shù)和偏移矩陣，從而為使用差異基因表達(dá)分析準(zhǔn)備好數(shù)據(jù)。

關(guān)于如何使用Salmon軟件量化轉(zhuǎn)錄本豐度的教程可以參閱佳學(xué)基因的其他基因檢測(cè)基因測(cè)序技術(shù)文章。佳學(xué)基因建議使用--gcBias來估計(jì)RNA-seq數(shù)據(jù)中普遍存在的系統(tǒng)偏差的校正因子。在采用Salmon數(shù)據(jù)處理之后，可以使用tximport構(gòu)建DESeqDataSet。這是佳學(xué)基因?yàn)榛驕y(cè)序?qū)W員單位推薦的RNA測(cè)序分析流程。

結(jié)合轉(zhuǎn)錄物豐度量化和tximport以產(chǎn)生基因水平計(jì)數(shù)矩陣和標(biāo)準(zhǔn)化偏移量的優(yōu)點(diǎn)是：該方法校正了樣本間基因長度的任何潛在變化（例如，同一基因的不同轉(zhuǎn)錄本）；與基于對(duì)齊的方法相比，其中一些方法速度更快，所需的內(nèi)存和磁盤使用量更少；而且可以避免丟棄那些可以與多個(gè)具有同源序列的基因?qū)R的片段。請(qǐng)注意，轉(zhuǎn)錄本豐度量詞跳過存儲(chǔ)讀取比對(duì)的大型文件的生成，而生成存儲(chǔ)每個(gè)轉(zhuǎn)錄本的豐度、計(jì)數(shù)和有效長度的較小文件。

(責(zé)任編輯：佳學(xué)基因)