显示抄袭结果

时间:2011-05-19 06:23:32

标签: java preprocessor highlighting plagiarism-detection

我正在开发一个抄袭检测框架。我们首先通过词干,同义词替换和停止词删除的方式对文档进行预处理。因此,预处理文档与原始文档略有不同。

在我们将预处理文档输入到我们的抄袭函数后,它返回相似的句子。

然后在我们的GUI中,我们必须通过突出显示两个文档和相似的句子。

要在java中突出显示,我们必须得到单词的索引并突出显示。

问题是预处理文本与原始文档不同,因此很难索引原始文档中的相似句子。

任何人都可以帮我解决这个问题吗?

1 个答案:

答案 0 :(得分:2)

您必须使用预处理文档存储某种元数据,以便将其内容映射到原始文档。比如保留一个列表,列出因停用单词删除而导致的所有空白,或者存储有关用同义词替换单词的位置的信息。

如果您记录在预处理期间所做的每个更改(位置/替换文本),那么您应该能够在原始文档中找到原始短语。