我将如何模拟damerau leveshtein距离算法以检测文档中的抄袭?谢谢!
答案 0 :(得分:3)
Levenshtein距离主要用于比较两个字符串,例如比较名称或在拼写检查器中查找替代字符串。将此算法用于整个文档以检测剽窃是不典型的。
但该地区还有一些工作要做。一切都指向这篇文章,需要订阅:
使用Levenshtein距离和Smith-Waterman算法进行抄袭检测
http://www.computer.org/portal/web/csdl/doi/10.1109/ICICIC.2008.422
文本中的抄袭是学术界越来越关注的问题。现在,最常见的文本抄袭是通过进行各种微小的改动而发生的,包括插入,删除或替换单词。然而,这种简单的改变需要过多的字符串比较。在本文中,我们提出了一种混合抄袭检测方法。我们研究了从Levenshtein距离导出的对角线的使用,以及简化的SmithWaterman算法,该算法是生物序列中局部相似性的识别和量化的经典工具,以及在抄袭检测中的应用。我们的方法避免了全球性的字符串比较,并考虑了心理因素,这可以通过实验结果显着提高速度。基于结果,我们使用Levenshtein距离和Smith-Waterman算法指出了这种改进的实用性,并说明了效率增益。将来,在文本比较领域探索适当的启发式方法会很有意思