我正在寻找有效的算法来清理我的字符串。有一大堆材料描述(MySQL上的VARCHAR(255))需要清理。材料带有拼写错误的单词和缩写,因此清理基本上是将单词替换为正确单词。单词地图现在超过300行,但可能正在增长。
几个问题:
我现在打算做什么:
在整个字符串中搜索单词并检查它的位置是否与替换文本不同,如果不是 - 请替换为替换。这就是我如何避免上面提到的第一个问题。搜索相同单词的下一个位置。如果未找到 - 请检查地图中的下一个项目。对地图中的300行中的每一行重复此操作。之后再进行下一次描述。当我计划在cron上运行脚本时,这看起来很耗费资源。
我正在使用PHP和MySQL,但欢迎任何想法如何优化它。