找到logFC“,”logCPM“,”PValue“和”FDR“

时间:2015-05-17 19:11:54

标签: r

我有一个疾病的每个文件。一个有514个重复,另一个有164个重复。列表示第一列中基因的表达值。也就是说,两者中的第一列是基因的名称,其后在一种疾病中重复514次,在另一种疾病中由164次重复。我想为这两种疾病之间的基因找到logFC“,”logCPM“,”PValue“和”FDR“。我将这两个文件合并到一个文件中,结果文件包含第一列中的基因列表,然后是678(514 + 164)为重复,我写了以下代码:

data <- as.matrix(read.table("input.txt"))
apply(data,2,as.numeric) 
g <- rep(1:2,c(514,164))
libSizes <- as.vector(colSums(data))
d <- DGEList(counts=data,group=g,lib.size=libSizes)
d <- calcNormFactors(d)
d <- estimateCommonDisp(d, verbose=TRUE)
d <- estimateTagwiseDisp(d)
de.com <- exactTest(d)
results <- topTags(de.com,n = length(data[,1]))
write.table(as.matrix(results$table),file="output.txt",sep="\t")

问题是我必须删除第一列和文件的标题,因为我必须将文件转换为数字并将其提供给DGEList但我认为这会影响结果,因为我已经获得了5列。我不知道额外的一个是什么以及我必须删除哪个或者我必须在代码中更改某些内容以获取基因列表和“logFC”,“logCPM”,“PValue”和“FDR”。 / p>

输入文件的一部分如下:

0.653993654	1.276692803	0.556128836	0.775983885	0.717589861	0.527708645	0.166243201	0.553488322	0.609239378	0.692983515	0.471143328	1.272292021	4.046941818	1.261593123	0.562684267	0.711300711	0.740874302	0.655042384
0.554710909	0.829202988	0.700911902	0.52594095	0.641069574	0.637162311	1.220821654	0.687161832	0.485179363	0.740110493	1.841845453	0.831462471	0.612542161	0.419160471	0.590194356	1.516203728	0.44318416	1.067371896
1.169490025	0.193918655	0.809054876	0.739811238	0.607294663	1.736244703	0.669051176	1.614793581	0.896046773	0.854208594	1.048149417	0.811260135	

输出文件的一部分是:

"logFC"	"logCPM"	"PValue"	"FDR"
"5162"	5.72927777667766	6.13200524980798	0	0
"21255"	4.97051820458245	6.8104549379198	0	0
"1611"	4.91542796319906	4.07820237328353	0	0
"4240"	4.51370468392384	8.49163867594591	0	0
"6263"	4.41506127922583	4.37500336136578	0	0
"17984"	3.76429054450582	3.91375102721913	0	0
"16911"	3.25334412628318	6.99703369826114	0	0
"1243"	2.25873960411886	7.97612835271848	0	0
"8773"	2.10924898345989	6.89323880133367	0	0
"22493"	1.93358582203404	5.51597962936543	0	0

谢谢。

0 个答案:

没有答案