如何分组类似的新闻

时间:2009-03-02 17:21:20

标签: php mysql rss

我正在尝试构建一个rss-news抓取服务器来收集一些关于某个主题的网站的所有新闻。这些网站通常都有类似的新闻,信息几乎相同。如何组织此类新闻是可能的。例如,显示第一个,然后显示其他链接的摘要?

有没有人对此有所了解?

3 个答案:

答案 0 :(得分:3)

查找关键字(例如,将描述拆分为单词并删除100个左右最常见的单词中的任何一个)然后通过共同使用这些关键词来解决它们。通常只看最长的单词会给你一个很好的快速近似。

换句话说,如果您有一个包含“主题组”的表格,您可以将每个项目分配给新的或现有的主题组。首先,查看是否有任何现有主题组与新主题组共享足够的关键字项目;如果有的话,把它放在那里。如果没有,请创建一个包含其关键字的新主题组,并将其添加为该主题组的第一个成员。

- MarkusQ

答案 1 :(得分:1)

我认为它叫做聚类:

我只是查找相关问题并找到this better answer

答案 2 :(得分:0)

最好通过比较文章的“语义签名或语义DNA”来完成。 这意味着您需要先进行自然语言处理。