提取PHP时格式错误的关键字

时间:2013-02-06 07:09:25

标签: php text-extraction malformed

我正在使用此resource从网页中提取关键字。它工作正常,但有些词语变得格格不入。单词“记忆”被提取为“ memori ”,“文章”被提取为“ articl ”。还有许多其他类似行为的关键字。 Here是从this URL中提取的一些关键字的列表(var_dump($ uniqueKeywords)),作为函数的参数。

P.S。:我没有剥离数字。

1 个答案:

答案 0 :(得分:3)

使用Stemming算法转换单词。词干化允许不同形式的单词匹配,例如“记忆”“记忆”都转换为“memori”。请注意,词干词通常不是实际词,但只应用于比较。

如果您不想要此行为,请跳过本教程的'Stem the words'部分。