我希望能够将一个段落与多个(比如说数千甚至更多)不同的段落进行比较,看看这些段落的任何部分是否完全用于第一段。
成像你有一个名为A
的段落,你要查看它,看它是否包含其他数千段的句子或句子的一部分。
我虽然效率很低,但没有更好的答案。我的方法是从输入段落(A
)读取前三个单词。然后,检查所有数千个文本的数据库中是否存在任何完全匹配。如果有任何匹配,请列出它们,然后将第四个单词添加到字符串中,并找到4-word
匹配列表中3-word
字符串的匹配项。执行此操作,直到与n-word
字符串不再匹配为止。 (n-1)-word
列表将保存为此次运行的结果。接下来,新的3-word
字符串将是nth
,(n+1)th
和(n+2)th
个字词,所有内容都会重新开始,直到文档结束。
对于大型输入文本和比较文本的庞大数据库,这将是非常低效的。有更好的算法吗?