RNA-seq数据的复杂聚类

时间:2015-04-21 15:50:07

标签: r machine-learning cluster-analysis

即使我正在使用RNA-seq数据,我的问题更多的是统计和机器学习性质。

所以,我所拥有的是来自四种不同条件的野生型(对照)和突变体的表达数据,其中条件是两种细胞类型和时间点的组合。基本上,我的表达式矩阵如下所示:

     time1_loc1_control  time1_loc1_mutant  time1_loc2_control  time1_loc2_mutant ...
gene1    
gene2
...

表达式值最初是百万计数,但我尝试在群集尝试之前使用不同的转换。

我想要实现的是根据突变体和对照(上调或下调)和表达的绝对值之间的变化方向聚类基因。

到目前为止,我只能根据变化的方向对基因进行粗略分组,但我还需要保留绝对表达值的信息。有什么方法可以帮助我吗?

另一个想法是按条件分割数据集(条件是独立的)并分别对基因进行聚类。这意味着每个基因将聚集四次。有没有办法确定哪些基因聚集在一起?

感谢您对此提出任何意见。我意识到这有点模糊,但我对此并不是非常有经验。

亲切的问候, ž

0 个答案:

没有答案