应用错误收集

我希望能够将一个段落与多个（比如说数千甚至更多）不同的段落进行比较，看看这些段落的任何部分是否完全用于第一段。

成像你有一个名为A的段落，你要查看它，看它是否包含其他数千段的句子或句子的一部分。

我虽然效率很低，但没有更好的答案。我的方法是从输入段落（A）读取前三个单词。然后，检查所有数千个文本的数据库中是否存在任何完全匹配。如果有任何匹配，请列出它们，然后将第四个单词添加到字符串中，并找到4-word匹配列表中3-word字符串的匹配项。执行此操作，直到与n-word字符串不再匹配为止。 (n-1)-word列表将保存为此次运行的结果。接下来，新的3-word字符串将是nth，(n+1)th和(n+2)th个字词，所有内容都会重新开始，直到文档结束。

对于大型输入文本和比较文本的庞大数据库，这将是非常低效的。有更好的算法吗？

将文本与多个文本进行比较，找到匹配句子的文本

0 个答案: