使用字符串映射清理文本的最佳方法

时间:2011-11-21 15:59:37

标签: php mysql text replace

我正在寻找有效的算法来清理我的字符串。有一大堆材料描述(MySQL上的VARCHAR(255))需要清理。材料带有拼写错误的单词和缩写,因此清理基本上是将单词替换为正确单词。单词地图现在超过300行,但可能正在增长。

几个问题:

  1. 我们应该将 word1 替换为 word1 word2 。然后,如果我已经有正确的描述,如 blah word1 word2 ,它将被替换为 blah word1 word1 word2
  2. 一些需要替换的搜索字符串可以包含很少的单词。也可能有搜索字符串,它是另一个搜索字符串的开头。例如,可以将棉花棉花混合作为需要更换的单词。
  3. 还需要保存所有分隔符。
  4. 我现在打算做什么:

    在整个字符串中搜索单词并检查它的位置是否与替换文本不同,如果不是 - 请替换为替换。这就是我如何避免上面提到的第一个问题。搜索相同单词的下一个位置。如果未找到 - 请检查地图中的下一个项目。对地图中的300行中的每一行重复此操作。之后再进行下一次描述。当我计划在cron上运行脚本时,这看起来很耗费资源。

    我正在使用PHP和MySQL,但欢迎任何想法如何优化它。

0 个答案:

没有答案