多字Twitter推特热门话题

时间:2011-11-28 03:10:27

标签: twitter trending

有人能告诉我Twitter.com在使用多个单词对趋势主题进行分类时使用了什么算法?当仅处理仅具有单个单词的趋势时,问题是容易的,例如“#SoulTrainAwards”或“#DontYouWish”。但是当处理具有多个单词的趋势时,例如“Chrisette Michelle”或“Happy Halloween”或“Merry Christmas”,这是一个完全不同的问题,因为关于单词趋势的单词可能是另一种不同的趋势。比如说“快乐”这个词,或单独说“圣诞节”这个词。

1 个答案:

答案 0 :(得分:1)

正如用户judotensthis question上指出的那样,您将消息划分为n-gram。我相信Twitter在趋势主题上最多使用3个单词,所以消息

  猫吃了食物。

将导致以下项目

  • 猫吃了
  • 猫吃了
  • 吃了食物
  • cat ate
  • 吃了
  • 食物
  • 食品

然后,我相信它会将这些数据用作某种streaming algorithm的输入,这将返回最频繁的项目。