即使我正在使用RNA-seq数据,我的问题更多的是统计和机器学习性质。
所以,我所拥有的是来自四种不同条件的野生型(对照)和突变体的表达数据,其中条件是两种细胞类型和时间点的组合。基本上,我的表达式矩阵如下所示:
time1_loc1_control time1_loc1_mutant time1_loc2_control time1_loc2_mutant ...
gene1
gene2
...
表达式值最初是百万计数,但我尝试在群集尝试之前使用不同的转换。
我想要实现的是根据突变体和对照(上调或下调)和表达的绝对值之间的变化方向聚类基因。
到目前为止,我只能根据变化的方向对基因进行粗略分组,但我还需要保留绝对表达值的信息。有什么方法可以帮助我吗?
另一个想法是按条件分割数据集(条件是独立的)并分别对基因进行聚类。这意味着每个基因将聚集四次。有没有办法确定哪些基因聚集在一起?
感谢您对此提出任何意见。我意识到这有点模糊,但我对此并不是非常有经验。
亲切的问候, ž