我对抄袭检查员(如Turnitin网站)的工作方式印象非常深刻。但他们是如何做到的呢?以一种非常有效的方式,我是这个领域的新手,因此有没有任何单词匹配算法或类似于用于检测相似句子的任何东西?
非常感谢你。
答案 0 :(得分:2)
我确信许多现实世界的抄袭检测系统都使用更复杂的方案,但检测两种东西相距多远的一般问题称为edit distance。该链接包括指向用于此目的的许多常用算法的链接。要点有效地回答了“我必须执行多少次编辑才能将一个输入转换为另一个?”的问题。现实世界系统面临的挑战是以高效的方式在大型语料库中执行此操作。一个相关的问题是longest common subsequence,它可能对这些方案有用,可以识别逐字复制的段落。