k-表示所有数据或每个功能?

时间:2017-02-15 05:23:27

标签: time-series cluster-analysis k-means

我希望使用k-means将时间序列数据离散化为两个值(0或1)。我的时间序列数据是每个基因的矩阵时间(线=时间,列=基因)。例如:

t\x   x1    x2    x3
 1  0.122 0.324 0.723
 2  0.543 0.573 0.329
 3  0.901 0.445 0.343
 4  0.612 0.353 0.435
 5  0.192 0.233 0.023

我的问题:我是否应该为每列的或 k群集的所有数据使用 k个聚类(因此每列的k群集总计为k.number_columns) ?我的基因是独立的

1 个答案:

答案 0 :(得分:0)

要么可以工作。

立即对所有属性进行分解,每次只给出一个符号,即单变量系列。

但另一方面,如果列是独立的,如果您单独对它们进行分类,质量可能会更好。请注意,对于一维数据,如果有噪声,分位数可能比k均值(对噪声敏感)好得多。