应用错误收集

创建文档比较软件

时间：2012-05-12 19:43:53

标签： java php python

我想创建一个应用程序，通过读取两个文档中的文本并进行比较，可以确定是否在两个文档之间复制了某些文本。我想知道是否有人试图这样做，以及处理相同的最佳方式是什么。如果涉及机器学习和自然语言处理：达到什么水平？

2 个答案:

答案 0 :(得分：1)

有些技术完全依赖于集理论概念

尝试http://en.wikipedia.org/wiki/W-shingling以获得良好的开端。

答案 1 :(得分：0)

我相信Copyscape使用 4-gram 来帮助确定唯一性。

这些字符串称为N-Grams。

但是，another SO answer以字符为基础与language independent algo comparing bi-grams相关联。它已经在Java中实现，这将有助于节省时间。