应用错误收集

我正在做一个NLP项目并且识别近似重复的文档是其中的一部分。任何有此领域经验的人都可以建议可以进行近似重复检测的工具（像Weka这样的实现）吗？

该项目是在分析一些当地英文新闻报纸的新闻文章后，制作一份犯罪统计报告。首先对犯罪条款进行分类。然后应检测并合并重复的文章。数据收集可能包含大约1000个与犯罪相关的文章，用于近似重复检测。

我在这里定义了近似重复项，因为这些文章包含相同的犯罪事件。有时，不同的新闻报道可能会报告相同的事件。同样的新闻报道可能会在不同的日子里报道新闻报道。

重复检测所需的时间不是问题，因为这不是在线处理。准确性在这里非常重要。

提前谢谢。

尽管duplicate content的概念非常简单，但near-duplicate content的概念可能会有问题。

例如，您是否将与同一事件相关的文件（例如来自不同来源的新闻文章）视为NDC？或者您是否认为展示与NDC相同的句法模式（例如天气预报）的文件？

考虑到你的目标，我认为你对NDC的前一个定义更感兴趣，但是应该更清楚地表达它。

作为第一次体验，您可能需要尝试OnIOn（https://code.google.com/p/onion/）专用于DC / NDC检测的工具，但考虑到语料库的大小（很小），您可能希望实现自己的NDC删除系统，基于您的 NDC定义。在这里，我建议你阅读Broder et al。（http://www.hpl.hp.com/techreports/Compaq-DEC/SRC-TN-1997-015.pdf）的开创性论文......给你一些想法。

用于识别近似重复文档的工具

1 个答案: