为什么不是最长的常见子串解决方案?

时间:2013-03-02 11:30:12

标签: string algorithm search language-agnostic search-engine

我正在阅读一个词干,这是将词语与共同词根匹配的问题,似乎是搜索引擎中的标准问题。
当我第一次想到这个问题时,我认为这是应用于N字的最长公共子字符串问题的经典应用。
例如。对于单词{computation, compute, computers},最长的公共子串是compute,这是词干/根 但我读到这不是问题的解决方案。实际上seems这甚至不是考虑因素,其他方法(后缀去除,随机等)是标准解决方案。

我的问题是:为什么N字的最长公共子字符串不能解决这个问题?

1 个答案:

答案 0 :(得分:2)

在许多语言中,语言词干通常不是常见的子串。例如,动词“be be”在许多语言中都是非常不规则的。

即使对于英语名词,也有例如{index,indices,indices}等特殊例子。你真的想用“索引”作为词干;如果你使用更短的“ind”作为词干,你就会发生冲突,在这种情况下,独立的政治家将他们的缩写政党称为“ind”。