我正在使用此resource从网页中提取关键字。它工作正常,但有些词语变得格格不入。单词“记忆”被提取为“ memori ”,“文章”被提取为“ articl ”。还有许多其他类似行为的关键字。 Here是从this URL中提取的一些关键字的列表(var_dump($ uniqueKeywords)),作为函数的参数。
P.S。:我没有剥离数字。
答案 0 :(得分:3)
使用Stemming算法转换单词。词干化允许不同形式的单词匹配,例如“记忆”和“记忆”都转换为“memori”。请注意,词干词通常不是实际词,但只应用于比较。
如果您不想要此行为,请跳过本教程的'Stem the words'部分。