PCA的频率或计数

时间:2012-11-14 23:47:26

标签: machine-learning pca

我有一些观察结果是对给定用户发生的特定事件的计数。例如

        login_count logout_count
user1            5            2
user2           20           10
user3           34            5

我想将这些变量与其他一些变量一起提供给PCA,只是想知道我是否应该直接使用计数(并缩放列)或使用百分比(并在之后缩放列),例如< / p>

       login_count logout_count
user1         0.71         0.28
user2         0.66         0.33
user3         0.87         0.13

哪一个是表示数据的更好方式?

感谢

1 个答案:

答案 0 :(得分:1)

取决于您要从数据中提取的信息。

如果相关login=p*logout那么我会选择第一个。 另一个有点奇怪,因为你应该100%的时间进行登录(你怎么知道它的用户1?)和注销可能是28%。此外,您还拥有依赖项1-login_procent_i=logout_procent_i,它将在预处理之前和之后为您提供完美的关联。