我有一个包含微阵列表达实验结果的文件。第一列包含基因名称。接下来的15个栏目是来自唐氏综合症患者的死后大脑的7个样本,以及来自没有唐氏综合症的人的8个样本。数据被标准化。我想知道哪些基因在各组之间差异表达。 有两组,数据几乎是正态分布的,因此对每个基因进行了t检验。最后将p值添加到另一列中。之后,我对多次测试进行了修正。 我需要对数据进行聚类以查看差异表达的基因(FDR <0.05)是否可以区分这些组。 此外,我想使用热像图可视化聚类,热图在行上有基因名称,在样本上有一些有意义的名称(列) 我暂时写了这段代码:
ds <- read.table("down_syndroms.txt", header=T)
names(ds) <- c("Gene",paste0("Down",1:7),paste0("Control",1:8), "pvalues")
pvadj <- p.adjust(ds$pvalue, method = "BH")
# # How many genes do we get with a FDR <=0.05
sum(pvadj<=0.05)
[1] 5641
# Cluster the data
ds_matrix<-as.matrix(ds[,2:18])
ds_dist_matrix<-dist(ds_matrix)
my_clustering<-hclust(ds_dist_matrix)
# Heatmap
library(gplots)
hm <- heatmap.2(ds_matrix, trace='none', margins=c(12,12))
我所做的热图并不像我想的那样。另外,我想我应该删除它的pvalues。此外,当我尝试绘制聚类时,R通常会崩溃(可能是由于数据文件的大小,有超过22,000个基因)。 我怎么能做一个更好看的树(聚类)和热图?