Question

即使我正在使用RNA-seq数据，我的问题更多的是统计和机器学习性质。

所以，我所拥有的是来自四种不同条件的野生型（对照）和突变体的表达数据，其中条件是两种细胞类型和时间点的组合。基本上，我的表达式矩阵如下所示：

     time1_loc1_control  time1_loc1_mutant  time1_loc2_control  time1_loc2_mutant ...
gene1    
gene2
...

表达式值最初是百万计数，但我尝试在群集尝试之前使用不同的转换。

我想要实现的是根据突变体和对照（上调或下调）和表达的绝对值之间的变化方向聚类基因。

到目前为止，我只能根据变化的方向对基因进行粗略分组，但我还需要保留绝对表达值的信息。有什么方法可以帮助我吗？

另一个想法是按条件分割数据集（条件是独立的）并分别对基因进行聚类。这意味着每个基因将聚集四次。有没有办法确定哪些基因聚集在一起？

感谢您对此提出任何意见。我意识到这有点模糊，但我对此并不是非常有经验。

亲切的问候， ž