我看到this question,专注于“布兰妮斯皮尔斯”问题。但我有一个不同的问题。算法如何确定需要对哪些单词或短语进行排名?例如,如果我发出一条说“迈克尔杰克逊去世”的推文,它怎么知道拔出“迈克尔杰克逊”而不是“死”?
或者假设Alec Baldwin和Steven Baldwin当天都在新闻中,因此在很多推文中都提到过。怎么知道以不同方式处理这两个名字而不仅仅是拔出“Baldwin”?
天真地,我可以看到这个问题是NP完全的(你必须将推文中的所有潜在短语与其他人的推文中的所有潜在短语进行比较)。
答案 0 :(得分:2)
此问题的一般解决方案是使用"term frequency, inverse document frequency" (tf-idf)。
这是一种统计方法,可以找到比其他词更相关的词/词,因为它们不经常被看到。在这种情况下,与普通英语单词“death”相比,名称“Michael Jackson”的频率可能非常低。
至于Alec Baldwin与Steven Baldwin - 这些将在part-of-speech tagging期间被识别为单独的 - 他们会被标记为个人专有名词。
答案 1 :(得分:2)
我相信它会寻找常见的单词集。此外,它们似乎引用了http://www.whatthetrend.com/
除此之外,也可能涉及轻微的人为控制。