规范化多变量数据

时间:2014-09-28 11:51:40

标签: r time-series cluster-analysis normalization

请问我可以使用任何R包或函数来规范化多变量数据吗?我并不真正关心标准化方法(min-max,z-score,任何对我有用的东西!!)。我有12个小时测量的32个物体的时间序列。看起来有点像这样:

df <-  structure(list(hr1 = c(4343L, 153L, 159L, 3100L, 183L), hr2 = c(1098L, 
123L, 65L, 3050L, 225L), hr3 = c(7L, 110L, 65L, 256L, 20L), hr4 = c(6400L, 
141L, 69L, 251L, 313L), hr5 = c(112L, 107L, 70L, 5L, 245L), 
hr6 = c(46L, 139L, 73L, 208L, 30L), hr7 = c(115L, 105L, 65L, 
219L, 267L), hr8 = c(375L, 137L, 66L, 180L, 345L), hr9 = c(187L, 
126L, 65L, 63L, 279L), hr10 = c(1613L, 277L, 66L, 134L, 30L
), hr11 = c(55L, 316L, 139L, 454L, 36L), hr12 = c(577L, 48L, 
90L, 3581L, 88L)), .Names = c("hr1", "hr2", "hr3", "hr4", 
"hr5", "hr6", "hr7", "hr8", "hr9", "hr10", "hr11", "hr12"), 
class = "data.frame", row.names = c("1", "2", "3", "4", "5"))

> df
   hr1  hr2 hr3  hr4 hr5 hr6 hr7 hr8 hr9 hr10 hr11 hr12
1 4343 1098   7 6400 112  46 115 375 187 1613   55  577
2  153  123 110  141 107 139 105 137 126  277  316   48
3  159   65  65   69  70  73  65  66  65   66  139   90
4 3100 3050 256  251   5 208 219 180  63  134  454 3581
5  183  225  20  313 245  30 267 345 279   30   36   88

我想对每个对象的值进行标准化,并对它们运行k-means聚类,以对具有相似形状的对象进行分组。目前,它们的价值分散得太广,会产生不准确的集群。我仍然不太确定如何进行规范化和聚类,并且会完全理解任何指针。感谢。

1 个答案:

答案 0 :(得分:2)

您可以使用缩放功能

scaledDF <- scale(df)

参见R:

中的比例功能文档

https://stat.ethz.ch/R-manual/R-devel/library/base/html/scale.html