我正在开发一个基于Z-score(标准分数)http://en.wikipedia.org/wiki/Standard_score来寻找趋势热门话题的系统。
我遇到了一个问题:
例如:我有两个主题:
主题1:
+第1天:10天互动
+ day 2:20互动
+ day 3:20互动
+ day 4:20互动
主题2:
+第1天:100互动
+ day 2:200互动
+ day 3:200互动
+ day 4:200互动
我使用Z-score在第4天计算得分z为2个主题,问题显示在这里:
如果我为每个主题划分2个数据交互,则2个主题的z得分几乎相同(0,66)(我的意思是我使用主题1的10,20,20,20交互,主题2的100,200,200,200交互)< / p>
但我很困惑,这是正确的Z-score工作方式,或者我必须包括所有数据交互来计算
答案 0 :(得分:0)
如果您将一个主题中的所有分数相乘以获得另一个主题的分数(在您的案例主题中,2分数均为主题1分数的10倍),那么您计算的第4天的z分数将相同这两个主题。无论如何,如果你想分别考虑每个主题以找到一个主题的重要“热门”日子,那么学生的t分布http://en.wikipedia.org/wiki/Student%27s_t-distribution比简单的z分数更好,因为t分配需要根据样本数量,适当考虑标准偏差的偏差。