用于基因表达的层次聚类

时间:2012-10-23 06:49:25

标签: r

我有一个RMA标准化基因表达数据集,有22810行和9列(启动子类型),数据的子集如下:

ID_REF GSM362180    GSM362181  GSM362188    GSM362189  GSM362192
244901 5.094871713 4.626623079 4.554272515 4.748604391 4.759221647
244902 5.194528083 4.985930299 4.817426064 5.151654407 4.838741605
244903 5.412329253 5.352970877 5.06250609  5.305709079 8.365082403
244904 5.529220594 5.28134657  5.467445095 5.62968933  5.458388909
244905 5.024052699 4.714631878 4.792865831 4.843975286 4.657188246
244906 5.786557533 5.242403911 5.060605782 5.458148567 5.890061836

我想对上述内容进行聚类并尝试进行分层聚类:

d <- dist(as.matrix(deg), method = "euclidean")

其中deg是差异表达基因的矩阵(数量为4300)。我收到以下警告:

  Warning message:
 In dist(as.matrix(deg), method = "euclidean") : NAs introduced by coercion

尽管有警告,是否可以继续进行聚类?

hc <- hclust(d)
plot(hc, hang = -0.01, cex = 0.7)

我得到一个非常密集的树状图并且标签不清楚:我也不知道哪些9个启动子在树中被分类为几个基因:如何用启动子标记树?以及如何将基因可视化为更清晰的树状图?我不知道如何在其他地方添加树形图。

1 个答案:

答案 0 :(得分:1)

根据您的评论,我无法重现您的错误。我读了数据:

##Read in the data
deg = read.table(textConnection("ID_REF GSM362180    GSM362181  GSM362188    GSM362189  GSM362192
244901 5.094871713 4.626623079 4.554272515 4.748604391 4.759221647
244902 5.194528083 4.985930299 4.817426064 5.151654407 4.838741605
244903 5.412329253 5.352970877 5.06250609  5.305709079 8.365082403
244904 5.529220594 5.28134657  5.467445095 5.62968933  5.458388909
244905 5.024052699 4.714631878 4.792865831 4.843975286 4.657188246
244906 5.786557533 5.242403911 5.060605782 5.458148567 5.890061836"), header=TRUE)

然后我可以计算距离矩阵:

R> dist(as.matrix(deg), method = "euclidean")
      1     2     3     4     5
2 1.173                        
3 4.266 3.701                  
4 3.423 2.288 3.120            
5 4.011 3.038 4.312 1.814      
6 5.282 4.204 3.912 2.109 1.957