有人能告诉我Twitter.com在使用多个单词对趋势主题进行分类时使用了什么算法?当仅处理仅具有单个单词的趋势时,问题是容易的,例如“#SoulTrainAwards”或“#DontYouWish”。但是当处理具有多个单词的趋势时,例如“Chrisette Michelle”或“Happy Halloween”或“Merry Christmas”,这是一个完全不同的问题,因为关于单词趋势的单词可能是另一种不同的趋势。比如说“快乐”这个词,或单独说“圣诞节”这个词。
答案 0 :(得分:1)
正如用户judotens在this question上指出的那样,您将消息划分为n-gram。我相信Twitter在趋势主题上最多使用3个单词,所以消息
猫吃了食物。
将导致以下项目
然后,我相信它会将这些数据用作某种streaming algorithm的输入,这将返回最频繁的项目。