应用错误收集

在这种情况下，您希望消除尽可能多的不必要数据。假设顺序很重要：

首先，请确保在基于短语的短语数据库上建立了B树索引。这将加快范围查找时间。
让n = 2（如果您喜欢的话，则为1）
将文本块拆分为长度为n的短语，并对字典中以任何短语对（'My Phrase%'开头的短语进行查询。由于使用了索引，因此不会执行45.21亿个字符串比较。
记住完全匹配的短语
让n = n + 1
使用精简字典从第3步重复进行，直到精简字典为空

您还可以根据要查找的匹配类型在此处和那里进行小的优化，例如，不使用标点符号匹配，仅匹配特定单词长度的短语等。无论如何，我希望时间瓶颈在于磁盘访问，而不是实际比较。

此外，我很确定我是基于现有算法创建此算法的，但是我不记得它的名字了，因此奖励指向任何可以命名它的人。我认为这与数据仓库/挖掘以及计算频率和模式有关吗？