- 相關(guān)推薦
如何對二代測序數據進(jìn)行質(zhì)量分析?
從事生物信息學(xué)分析的學(xué)生和工作人員都會(huì )接觸到二代測序數據,我們從測序公司拿到所需要的數據之后,首先最關(guān)心的問(wèn)題就是測序數據的質(zhì)量好不好,本文介紹一下如何對二代測序數據進(jìn)行質(zhì)量分析(QC)
工具/原料
linux系統:ubuntu 或者 服務(wù)
fastqc
方法/步驟
1
安裝fastqc
注意將fastqc加入到系統環(huán)境變量中,以便于在終端或命令行中直接運行
具體安裝方法參考fastqc官方手冊
2
在命令行中直接運行命令
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]
output dir指的是輸出結果路徑
extract參數指的是輸出結果是否解壓
-f 參數 是輸入文件的格式,指的是測序數據
3
運行fastqc:
fastqc seqfile1.fq seqfile2.fq
4
輸出結果:在output dir目錄下的一個(gè)壓縮文件(未壓縮)
通常我們只需關(guān)注如下幾個(gè)結果
1 每個(gè)位置的堿基測序質(zhì)量。通常我們一般認為從第二個(gè)堿基開(kāi)始,平均每個(gè)堿基的測序質(zhì)量boxplot下四分位線(xiàn)在30分以上,則認為測序質(zhì)量非常好
5
2.每條序列的測序質(zhì)量 一般認為90%的reads測序質(zhì)量在35分以上,則認為該測序質(zhì)量非常好
6
3. ATCG堿基在各個(gè)位置上的分布 一般來(lái)說(shuō),AT含量高于CG含量,AT含量約28%,CG含量約22%。由于測序問(wèn)題,通常第一二位置的堿基測序質(zhì)量比較低,ATCG含量也不正常。這種情況不影響數據質(zhì)量,如果實(shí)在介意,可在后續bowtie mapping的時(shí)候將前兩個(gè)堿基去掉
【如何對二代測序數據進(jìn)行質(zhì)量分析?】相關(guān)文章:
如何分析報錄比數據01-31
店鋪的數據分析該如何來(lái)做06-17
數據分析報告07-28
大數據分析07-20
銷(xiāo)售數據的分析方法07-25
大數據分析07-25
多維數據分析方法04-07
數據分析工作職責07-28
數據分析常用方法07-26