我有两个矩阵,包含来自40个样本和50000个基因的信息。 Matrix Expr包含每个基因和样本的基因表达; Matrix Methyl包含每个样品的这些基因的甲基化状态。是否有可能基于表达和甲基化信息进行聚类(基因和/或样本)?我知道如何在R中执行基本的层次聚类; hclust(dist(M))
但它只在一个矩阵上..任何想法/建议?
答案 0 :(得分:0)
如果您想根据基因表达和甲基化状态的(dis)相似性对样本进行聚类,那么您可以认为所有50000个基因的基因表达和基因甲基化状态都是每个样本的“特征”。
因此,您可以连接矩阵Methyl和Expr,产生40x100000矩阵,并计算该矩阵的dist()。
同样,如果你想根据它们的差异聚类基因,可以将两个矩阵连接到80x50000矩阵
希望它有所帮助。
答案 1 :(得分:0)
您需要定义一个考虑两个矩阵的相似性。
天真地,这可能就像
一样简单dist <- dist(A) + dist(B)
然而,聚类通常对规模非常敏感,并且这些问题使得任何这样的方法非常困难。抱歉 - 此问题没有“正确”或自动解决方案。