我正在做一个NLP项目并且识别近似重复的文档是其中的一部分。任何有此领域经验的人都可以建议可以进行近似重复检测的工具(像Weka这样的实现)吗?
该项目是在分析一些当地英文新闻报纸的新闻文章后,制作一份犯罪统计报告。首先对犯罪条款进行分类。然后应检测并合并重复的文章。数据收集可能包含大约1000个与犯罪相关的文章,用于近似重复检测。
我在这里定义了近似重复项,因为这些文章包含相同的犯罪事件。有时,不同的新闻报道可能会报告相同的事件。同样的新闻报道可能会在不同的日子里报道新闻报道。
重复检测所需的时间不是问题,因为这不是在线处理。准确性在这里非常重要。
提前谢谢。
答案 0 :(得分:2)
尽管duplicate content
的概念非常简单,但near-duplicate content
的概念可能会有问题。
例如,您是否将与同一事件相关的文件(例如来自不同来源的新闻文章)视为NDC? 或者您是否认为展示与NDC相同的句法模式(例如天气预报)的文件?
考虑到你的目标,我认为你对NDC的前一个定义更感兴趣,但是应该更清楚地表达它。
作为第一次体验,您可能需要尝试OnIOn(https://code.google.com/p/onion/)专用于DC / NDC检测的工具,但考虑到语料库的大小(很小),您可能希望实现自己的NDC删除系统,基于您的 NDC定义。 在这里,我建议你阅读Broder et al。(http://www.hpl.hp.com/techreports/Compaq-DEC/SRC-TN-1997-015.pdf)的开创性论文......给你一些想法。