小編給大家分享一下CPAT軟件有什么用,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!
站在用戶的角度思考問(wèn)題,與客戶深入溝通,找到乾安網(wǎng)站設(shè)計(jì)與乾安網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品,建站類型包括:做網(wǎng)站、成都做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、域名注冊(cè)、網(wǎng)絡(luò)空間、企業(yè)郵箱。業(yè)務(wù)覆蓋乾安地區(qū)。
隨著高通量測(cè)序在lncRNA研究領(lǐng)域的應(yīng)用, 越來(lái)越多的lncRNA被發(fā)現(xiàn)。對(duì)于轉(zhuǎn)錄組測(cè)序的數(shù)據(jù)而言,組裝得到轉(zhuǎn)錄本之后,首先要做的就是區(qū)分蛋白編碼和非蛋白編碼的RNA。
目前針對(duì)這一問(wèn)題,有多種解決方案,基本可以分為以下兩類
alignment-based
alignment-free
第一種算法基于序列比對(duì),可以較好的識(shí)別保守性較好的蛋白編碼基因, 包括CPC
,PhyloCSF
等軟件; 第二種算法不需要比對(duì),而是通過(guò)coding和non-coding轉(zhuǎn)錄本的序列特征來(lái)進(jìn)行區(qū)分,包括CNCI
, CPAT
, PLEK
等。
lncRNA在物種間的保守性較差,另外部分lncRNA的染色體位置和蛋白編碼基因存在重疊,通過(guò)序列比對(duì)的方式來(lái)區(qū)分容易造成誤判。除此之外,基于序列比對(duì)的軟件,其運(yùn)行速度相對(duì)較慢,所以采用第二種算法的軟件綜合效果更好。
本文主要介紹CPAT
的使用,網(wǎng)址如下
http://lilab.research.bcm.edu/cpat/
對(duì)于一個(gè)轉(zhuǎn)錄本而言,它是coding還是noncoding, 本質(zhì)上是一個(gè)二分類問(wèn)題,所以CPAT
的開(kāi)發(fā)者想到了通過(guò)邏輯回歸來(lái)解決這個(gè)問(wèn)題。該軟件基于以下四個(gè)特征構(gòu)建了邏輯回歸模型來(lái)區(qū)分coding和noncoding
open reading frame size
open reading frame coverage
Fickett TESTCODE statistic
hexamer usage bias
前兩個(gè)因素都是針對(duì)開(kāi)放閱讀框定義的,第一個(gè)因素是開(kāi)放閱讀框的大小,第二個(gè)因素是開(kāi)放閱讀框占轉(zhuǎn)錄本總長(zhǎng)度的比例,第三個(gè)因素基于序列的堿基組成和密碼子分布進(jìn)行定義,第四個(gè)因素基于序列中六聚體的頻率進(jìn)行定義。
在論文中,針對(duì)以上4種特征,首先評(píng)估在coding和noncoding中的分布,圖示如下
可以看到,coding和noncoding形成了兩個(gè)不同的峰,說(shuō)明這4種特征在coding和noncoding之間確實(shí)存在差異。
在論文中還通過(guò)ROC
曲線評(píng)估了不同軟件的性能,結(jié)果如下
可以看到CPAT
和CPC
的效果是最好的。CPAT
基于python編程語(yǔ)言開(kāi)發(fā),安裝非常的簡(jiǎn)便,代碼如下
pip install CPAT
該軟件既可以在本地運(yùn)行,也提供了在線版本。
在線版本的網(wǎng)址如下
http://lilab.research.bcm.edu/cpat/
可以直接輸入fasta格式的序列,也可以輸入bed格式的文件,此時(shí)需要指定對(duì)應(yīng)的基因組版本,示意如下
本地版本對(duì)應(yīng)的也有兩種用法,輸入bed
文件的用法如下
cpat.py -r /database/hg19.fa \ -g mRNA_hg19.bed \ -d dat/Human_logitModel.RData \ -x dat/Human_Hexamer.tsv \ -o output.txt
輸入fasta
文件的用法如下
cpat.py -g transcript.fa \ -d dat/Human_logitModel.RData \ -x dat/Human_Hexamer.tsv \ -o output.txt
-d
和-x
參數(shù)對(duì)應(yīng)的文件為軟件構(gòu)建好的模型,位于軟件的安裝目錄下。軟件的輸出結(jié)果如下所示
最后一列給出了轉(zhuǎn)錄本的蛋白編碼信息,yes
代表該轉(zhuǎn)錄本為protein-coding轉(zhuǎn)錄本,no
代表該轉(zhuǎn)錄本為noncoding轉(zhuǎn)錄本。
看完了這篇文章,相信你對(duì)“CPAT軟件有什么用”有了一定的了解,如果想了解更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!
網(wǎng)站標(biāo)題:CPAT軟件有什么用
URL地址:http://m.kartarina.com/article42/jecdhc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供做網(wǎng)站、響應(yīng)式網(wǎng)站、虛擬主機(jī)、品牌網(wǎng)站建設(shè)、網(wǎng)站策劃、網(wǎng)站設(shè)計(jì)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)