将文本与多个文本进行比较,找到匹配句子的文本

时间:2014-02-16 23:05:52

标签: php mysql algorithm text-search plagiarism-detection

我希望能够将一个段落与多个(比如说数千甚至更多)不同的段落进行比较,看看这些段落的任何部分是否完全用于第一段。

成像你有一个名为A的段落,你要查看它,看它是否包含其他数千段的句子或句子的一部分。

我虽然效率很低,但没有更好的答案。我的方法是从输入段落(A)读取前三个单词。然后,检查所有数千个文本的数据库中是否存在任何完全匹配。如果有任何匹配,请列出它们,然后将第四个单词添加到字符串中,并找到4-word匹配列表中3-word字符串的匹配项。执行此操作,直到与n-word字符串不再匹配为止。 (n-1)-word列表将保存为此次运行的结果。接下来,新的3-word字符串将是nth(n+1)th(n+2)th个字词,所有内容都会重新开始,直到文档结束。

对于大型输入文本和比较文本的庞大数据库,这将是非常低效的。有更好的算法吗?

0 个答案:

没有答案