我正在尝试构建一个rss-news抓取服务器来收集一些关于某个主题的网站的所有新闻。这些网站通常都有类似的新闻,信息几乎相同。如何组织此类新闻是可能的。例如,显示第一个,然后显示其他链接的摘要?
有没有人对此有所了解?
答案 0 :(得分:3)
查找关键字(例如,将描述拆分为单词并删除100个左右最常见的单词中的任何一个)然后通过共同使用这些关键词来解决它们。通常只看最长的单词会给你一个很好的快速近似。
换句话说,如果您有一个包含“主题组”的表格,您可以将每个项目分配给新的或现有的主题组。首先,查看是否有任何现有主题组与新主题组共享足够的关键字项目;如果有的话,把它放在那里。如果没有,请创建一个包含其关键字的新主题组,并将其添加为该主题组的第一个成员。
- MarkusQ
答案 1 :(得分:1)
答案 2 :(得分:0)
最好通过比较文章的“语义签名或语义DNA”来完成。 这意味着您需要先进行自然语言处理。