应用错误收集

有趣的想法。我猜这个已经被研究过了，看看一些comp-sci期刊应该会出现一些好的指针。这就是我的一些想法：

方法

您可以找到最独特的关键短语，并查看它们与其他文章的关键短语的匹配程度。我认为google发布的关于网络短语频率的数据会给你提供基线。

你不知何故需要认识到“在...中”是一个非常常见的短语，但“金斯利访问”很重要。将所有文本过滤到关键短语后，您可以看到其中有多少匹配。

关键短语：

所有动词，名词，名称和小说（新/错误拼写）单词的集合
你可以抓住一到五个字长的短语
删除所有非常常见的内容（可以在常用短语上使用分类器）
看看它们之间有多少匹配。
有一个可控滑块来设置匹配阈值

如果你自己写这篇文章并不容易，但我会说这是一个非常有趣的问题领域。

实施例

如果我们只是使用标题并手动遵循该方法。

Ben Kingsley与妻子访问泰姬陵将创建以下关键字：

Ben Kingsley
金斯利
Kingsley访问
妻子
Mahal的
......等......

但是这些应该被删除，因为它们太常见了（因此无助于唯一地识别内容）

本
与妻子

一旦与泰姬陵的其他标题 Kingsley浪漫妻子完成同样的事情，那么你可以比较并发现相当多的关键短语相互匹配。因此，他们在同一主题上。

尽管这已经是一项艰巨的任务，但你可以做很多事情来进一步完成匹配。

扩展

这些是在创建关键字时缩减关键字的所有方法。

WordNet是一个很好的开始，可以在“更长”和“延长”之间找到匹配。这将是有用的，因为文章不会使用相同的词汇来写作。
您可以运行贝叶斯分类器作为关键词。可以通过具有所有匹配/不匹配的文章及其关键短语的集合来训练它。你必须要小心如何处理看不见的短语，因为这些可能是你遇到的最重要的事情。在不是关键短语上运行它甚至可能更好。
如果没有其他符合条件的话，甚至可能会在某些关键短语之间对Levenshtein distance进行计算。我猜可能总会找到一些匹配。

我觉得这是一个非常好的答案会让你获得博士学位的事情之一。再说一遍，我想它已经完成了before（谷歌必须有一些自动方式来抓取所有这些新闻网站，并将它们纳入类别和类似文章）

这是一个分类问题，但考虑到你将拥有的不同类的数量，会更难。一种选择可能是使用Feature Selection（more info）缩小每个文档的大小。功能选择包括选择顶部的 n 术语（不包括stop words，可能将stemming应用于每个单词）。通过为每个文档计算每个术语的mutual information（more info），按该数字排序术语并为每个文档选择前n个术语来执行此操作。现在，每个文档的前n项减少的特征集可以构成执行重复选择的基础（例如，如果任何文档之间存在超过 x％的常用术语，则再次通过回溯测试计算x ），

本information retrieval的免费书中涵盖了大部分内容。

贝叶斯过滤器标记重复项

2 个答案:

方法

实施例

扩展