我想创建一个应用程序,通过读取两个文档中的文本并进行比较,可以确定是否在两个文档之间复制了某些文本。我想知道是否有人试图这样做,以及处理相同的最佳方式是什么。如果涉及机器学习和自然语言处理:达到什么水平?
答案 0 :(得分:1)
有些技术完全依赖于集理论概念
尝试http://en.wikipedia.org/wiki/W-shingling以获得良好的开端。
答案 1 :(得分:0)
我相信Copyscape使用 4-gram 来帮助确定唯一性。
这些字符串称为N-Grams。
但是,another SO answer以字符为基础与language independent algo comparing bi-grams相关联。它已经在Java中实现,这将有助于节省时间。