我有一些观察结果是对给定用户发生的特定事件的计数。例如
login_count logout_count
user1 5 2
user2 20 10
user3 34 5
我想将这些变量与其他一些变量一起提供给PCA,只是想知道我是否应该直接使用计数(并缩放列)或使用百分比(并在之后缩放列),例如< / p>
login_count logout_count
user1 0.71 0.28
user2 0.66 0.33
user3 0.87 0.13
哪一个是表示数据的更好方式?
感谢
答案 0 :(得分:1)
取决于您要从数据中提取的信息。
如果相关login=p*logout
那么我会选择第一个。
另一个有点奇怪,因为你应该100%的时间进行登录(你怎么知道它的用户1?)和注销可能是28%。此外,您还拥有依赖项1-login_procent_i=logout_procent_i
,它将在预处理之前和之后为您提供完美的关联。