我正在阅读一个词干,这是将词语与共同词根匹配的问题,似乎是搜索引擎中的标准问题。
当我第一次想到这个问题时,我认为这是应用于N
字的最长公共子字符串问题的经典应用。
例如。对于单词{computation, compute, computers}
,最长的公共子串是compute
,这是词干/根
但我读到这不是问题的解决方案。实际上seems这甚至不是考虑因素,其他方法(后缀去除,随机等)是标准解决方案。
我的问题是:为什么N
字的最长公共子字符串不能解决这个问题?
答案 0 :(得分:2)
在许多语言中,语言词干通常不是常见的子串。例如,动词“be be”在许多语言中都是非常不规则的。
即使对于英语名词,也有例如{index,indices,indices}等特殊例子。你真的想用“索引”作为词干;如果你使用更短的“ind”作为词干,你就会发生冲突,在这种情况下,独立的政治家将他们的缩写政党称为“ind”。