贝叶斯过滤器标记重复项

时间:2009-12-09 11:18:49

标签: duplicates bayesian

我收集某些主题的新闻,然后对它们运行贝叶斯分类器,将它们标记为有趣或无趣。 我看到有新闻不同的文章基本上是同一个新闻。例如 - 本·金斯利和妻子一起去泰姬陵 - 金斯利浪漫的妻子在泰姬陵的草坪上

如何教导系统将所有这些标记为重复?

由于 桑杰

2 个答案:

答案 0 :(得分:4)

有趣的想法。我猜这个已经被研究过了,看看一些comp-sci期刊应该会出现一些好的指针。这就是我的一些想法:

方法

您可以找到最独特的关键短语,并查看它们与其他文章的关键短语的匹配程度。我认为google发布的关于网络短语频率的数据会给你提供基线。

你不知何故需要认识到“在...中”是一个非常常见的短语,但“金斯利访问”很重要。将所有文本过滤到关键短语后,您可以看到其中有多少匹配。

关键短语:

  • 所有动词,名词,名称和小说(新/错误拼写)单词的集合
  • 你可以抓住一到五个字长的短语
  • 删除所有非常常见的内容(可以在常用短语上使用分类器)
  • 看看它们之间有多少匹配。
  • 有一个可控滑块来设置匹配阈值

如果你自己写这篇文章并不容易,但我会说这是一个非常有趣的问题领域。

实施例

如果我们只是使用标题并手动遵循该方法。

Ben Kingsley与妻子访问泰姬陵将创建以下关键字:

  • Ben Kingsley
  • 金斯利
  • Kingsley访问
  • 妻子
  • Mahal的
  • ......等......

但是这些应该被删除,因为它们太常见了(因此无助于唯一地识别内容)

  • 与妻子

一旦与泰姬陵的其他标题 Kingsley浪漫妻子完成同样的事情,那么你可以比较并发现相当多的关键短语相互匹配。因此,他们在同一主题上。

尽管这已经是一项艰巨的任务,但你可以做很多事情来进一步完成匹配。

扩展

这些是在创建关键字时缩减关键字的所有方法。

  1. WordNet是一个很好的开始,可以在“更长”和“延长”之间找到匹配。这将是有用的,因为文章不会使用相同的词汇来写作。

  2. 您可以运行贝叶斯分类器作为关键词。可以通过具有所有匹配/不匹配的文章及其关键短语的集合来训练它。你必须要小心如何处理看不见的短语,因为这些可能是你遇到的最重要的事情。在不是关键短语上运行它甚至可能更好。

  3. 如果没有其他符合条件的话,甚至可能会在某些关键短语之间对Levenshtein distance进行计算。我猜可能总会找到一些匹配。

  4. 我觉得这是一个非常好的答案会让你获得博士学位的事情之一。再说一遍,我想它已经完成了before(谷歌必须有一些自动方式来抓取所有这些新闻网站,并将它们纳入类别和类似文章)

    祝你好运。

答案 1 :(得分:2)

这是一个分类问题,但考虑到你将拥有的不同类的数量,会更难。一种选择可能是使用Feature Selectionmore info)缩小每个文档的大小。功能选择包括选择顶部的 n 术语(不包括stop words可能stemming应用于每个单词)。通过为每个文档计算每个术语的mutual informationmore info),按该数字排序术语并为每个文档选择前n个术语来执行此操作。现在,每个文档的前n项减少的特征集可以构成执行重复选择的基础(例如,如果任何文档之间存在超过 x%的常用术语,则再次通过回溯测试计算x ),

information retrieval的免费书中涵盖了大部分内容。