【佳學(xué)基因檢測(cè)】基因檢測(cè)中的智能算法歷程:phastCons
根據(jù)佳學(xué)基因基因解碼年鑒,phastCons是一款對(duì)基因組中發(fā)生突變的區(qū)域的保守程度進(jìn)行分析和智能評(píng)估的軟件,通過(guò)snpsift的phastCons
命令可以對(duì)變異位點(diǎn)進(jìn)行保守區(qū)域的注釋。
phastCons職能算法的初衷是為了識(shí)別多重比對(duì)序列中的保守序列。 PhastCons 的算法基礎(chǔ)是基于系統(tǒng)發(fā)育隱馬爾可夫模型 (phylo-HMM),這是一種統(tǒng)計(jì)模型,它考慮了基因組中每個(gè)位點(diǎn)發(fā)生核苷酸替換的過(guò)程以及該過(guò)程如何從一個(gè)位點(diǎn)變化到下一個(gè)位點(diǎn)。 Phylo-HMM 提供了一個(gè)原則性的、數(shù)學(xué)上嚴(yán)格的框架,在該框架中使用比較序列數(shù)據(jù)解決“分段”問(wèn)題,即對(duì)齊序列將被解析為不同類(lèi)別的片段(例如,“保守”和“非保守”或“編碼”和“非編碼”)。由于幾個(gè)原因,它們是識(shí)別保守序列的有吸引力的工具;它們可以與一般系統(tǒng)發(fā)育和核苷酸替換的賊佳可用連續(xù)時(shí)間馬爾可夫模型一起使用,它們不需要固定大小的滑動(dòng)窗口,它們?cè)试S通過(guò)賊大似然從數(shù)據(jù)中估計(jì)幾乎所有參數(shù),并且它們?cè)试S在大規(guī)模數(shù)據(jù)集上有效執(zhí)行所有必要的計(jì)算。
使用 phastCons,佳學(xué)基因?qū)Σ煌锓N的全基因組采用多重比對(duì)的方法對(duì)保守元素進(jìn)行了全面搜索,包括五個(gè)脊椎動(dòng)物基因組、四個(gè)昆蟲(chóng)基因組、兩個(gè) Caenorhabditis 基因組和七個(gè)酵母菌基因組。
佳學(xué)基因發(fā)現(xiàn)大約 3%–8% 的人類(lèi)基因組由脊椎動(dòng)物和/或其他真獸類(lèi)哺乳動(dòng)物中保守的序列組成?;蚪M緊湊的黑腹果蠅 (37%–53%)、秀麗隱桿線蟲(chóng) (18%–37%) 和釀酒酵母 (47%–68%) 基因組的親緣關(guān)系更近的物種中是保守的。從酵母到脊椎動(dòng)物,為了增加基因組大小和一般生物學(xué)復(fù)雜性,發(fā)現(xiàn)越來(lái)越多的保守堿基位于蛋白質(zhì)編碼基因的已知或可疑外顯子之外,這顯然反映了復(fù)雜真核生物中調(diào)控和其他非編碼序列的重要性。
在所有物種組中,賊高保守元素 (HCEe) 的對(duì)數(shù)優(yōu)勢(shì)得分為數(shù)百或數(shù)千個(gè)堿基,并顯示出極高的保守水平,但不是在超保守元素中看到的出色序列。少于一半 (42%) 的脊椎動(dòng)物 HCE 與已知蛋白質(zhì)編碼基因的外顯子重疊,而在昆蟲(chóng)、蠕蟲(chóng)和酵母中,幾乎所有 (>93%) 的 HCE 都與此類(lèi)外顯子重疊。
脊椎動(dòng)物中一些賊極端的保守性見(jiàn)于 3' UTR,尤其是調(diào)節(jié)其他基因的基因,這可能反映了廣泛的轉(zhuǎn)錄后調(diào)節(jié)。這種趨勢(shì)在昆蟲(chóng)中不太明顯,在蠕蟲(chóng)中沒(méi)有觀察到。
脊椎動(dòng)物 3' UTR 中的 HCE,以及??在較小程度上,5' UTR 中的 HCE,顯示出局部 RNA 二級(jí)結(jié)構(gòu)富集的強(qiáng)有力的統(tǒng)計(jì)證據(jù),這與轉(zhuǎn)錄后調(diào)控作用的假設(shè)一致。內(nèi)含子和基因間區(qū)域中的 HCE 似乎也富含局部 RNA 二級(jí)結(jié)構(gòu),這表明許多可能編碼功能性 RNA。
在脊椎動(dòng)物中,基因間 HCE 在穩(wěn)定的基因沙漠中高度富集(近五倍),這表明它們中的許多可能充當(dāng)正確調(diào)節(jié)基因的遠(yuǎn)端順式調(diào)節(jié)元件。
(責(zé)任編輯:佳學(xué)基因)