假设您想比较学生的论文,看看其中一篇论文是否被抄袭。你会如何以天真的方式解决这个问题(即不是太复杂的方法)?当然,有一些简单的方法可以比较论文中使用的单词,以及使用压缩函数等复杂的方法,但是在没有太多复杂性/理论的情况下,还有哪些其他方法可以检查抄袭?
答案 0 :(得分:2)
有几篇论文提供了几种方法,我建议阅读this 本文展示了一种基于索引结构的算法 建立在整个文件集合上。
因此他们说他们的算法可用于在大型软件系统中找到类似的代码片段。在构建索引之前,所有文件都在 集合被标记化。这是一个简单的解析问题,可以解决 线性时间。对于集合中的每个N fi文件,令牌化程序的输出 对于文件,F_i是一串n_i标记。
here是您可以阅读的其他论文
其他好的算法is a scam based algorithm,包括通过对测试文档之间通用的一组单词进行比较来检测抄袭 和注册文件。与许多信息检索系统一样,我们的抄袭检测系统使用精确度和召回率进行评估。
答案 1 :(得分:1)
你可以看一下Dick Grune的similarity comparator,它声称也在使用自然语言文本(我只在软件上试过)。还描述了算法。 (顺便说一句,在我看来,他关于解析的书非常好。)