我收集某些主题的新闻,然后对它们运行贝叶斯分类器,将它们标记为有趣或无趣。 我看到有新闻不同的文章基本上是同一个新闻。例如 - 本·金斯利和妻子一起去泰姬陵 - 金斯利浪漫的妻子在泰姬陵的草坪上
如何教导系统将所有这些标记为重复?
由于 桑杰
答案 0 :(得分:4)
有趣的想法。我猜这个已经被研究过了,看看一些comp-sci期刊应该会出现一些好的指针。这就是我的一些想法:
您可以找到最独特的关键短语,并查看它们与其他文章的关键短语的匹配程度。我认为google发布的关于网络短语频率的数据会给你提供基线。
你不知何故需要认识到“在...中”是一个非常常见的短语,但“金斯利访问”很重要。将所有文本过滤到关键短语后,您可以看到其中有多少匹配。
关键短语:
如果你自己写这篇文章并不容易,但我会说这是一个非常有趣的问题领域。
如果我们只是使用标题并手动遵循该方法。
Ben Kingsley与妻子访问泰姬陵将创建以下关键字:
但是这些应该被删除,因为它们太常见了(因此无助于唯一地识别内容)
一旦与泰姬陵的其他标题 Kingsley浪漫妻子完成同样的事情,那么你可以比较并发现相当多的关键短语相互匹配。因此,他们在同一主题上。
尽管这已经是一项艰巨的任务,但你可以做很多事情来进一步完成匹配。
这些是在创建关键字时缩减关键字的所有方法。
WordNet是一个很好的开始,可以在“更长”和“延长”之间找到匹配。这将是有用的,因为文章不会使用相同的词汇来写作。
您可以运行贝叶斯分类器作为关键词。可以通过具有所有匹配/不匹配的文章及其关键短语的集合来训练它。你必须要小心如何处理看不见的短语,因为这些可能是你遇到的最重要的事情。在不是关键短语上运行它甚至可能更好。
如果没有其他符合条件的话,甚至可能会在某些关键短语之间对Levenshtein distance进行计算。我猜可能总会找到一些匹配。
我觉得这是一个非常好的答案会让你获得博士学位的事情之一。再说一遍,我想它已经完成了before(谷歌必须有一些自动方式来抓取所有这些新闻网站,并将它们纳入类别和类似文章)
祝你好运。答案 1 :(得分:2)
这是一个分类问题,但考虑到你将拥有的不同类的数量,会更难。一种选择可能是使用Feature Selection(more info)缩小每个文档的大小。功能选择包括选择顶部的 n 术语(不包括stop words,可能将stemming应用于每个单词)。通过为每个文档计算每个术语的mutual information(more info),按该数字排序术语并为每个文档选择前n个术语来执行此操作。现在,每个文档的前n项减少的特征集可以构成执行重复选择的基础(例如,如果任何文档之间存在超过 x%的常用术语,则再次通过回溯测试计算x ),
本information retrieval的免费书中涵盖了大部分内容。