使用Z-score查找趋势,热门话题

时间:2015-04-07 16:08:46

标签: algorithm information-retrieval

我正在开发一个基于Z-score(标准分数)http://en.wikipedia.org/wiki/Standard_score来寻找趋势热门话题的系统。

我遇到了一个问题:

例如:我有两个主题:

  • 主题1:

    +第1天:10天互动

    + day 2:20互动

    + day 3:20互动

    + day 4:20互动

  • 主题2:

    +第1天:100互动

    + day 2:200互动

    + day 3:200互动

    + day 4:200互动

我使用Z-score在第4天计算得分z为2个主题,问题显示在这里:

如果我为每个主题划分2个数据交互,则2个主题的z得分几乎相同(0,66)(我的意思是我使用主题1的10,20,20,20交互,主题2的100,200,200,200交互)< / p>

但我很困惑,这是正确的Z-score工作方式,或者我必须包括所有数据交互来计算

1 个答案:

答案 0 :(得分:0)

如果您将一个主题中的所有分数相乘以获得另一个主题的分数(在您的案例主题中,2分数均为主题1分数的10倍),那么您计算的第4天的z分数将相同这两个主题。无论如何,如果你想分别考虑每个主题以找到一个主题的重要“热门”日子,那么学生的t分布http://en.wikipedia.org/wiki/Student%27s_t-distribution比简单的z分数更好,因为t分配需要根据样本数量,适当考虑标准偏差的偏差。