应用错误收集

为什么不是最长的常见子串解决方案？

时间：2013-03-02 11:30:12

标签： string algorithm search language-agnostic search-engine

我正在阅读一个词干，这是将词语与共同词根匹配的问题，似乎是搜索引擎中的标准问题。
当我第一次想到这个问题时，我认为这是应用于N字的最长公共子字符串问题的经典应用。
例如。对于单词{computation, compute, computers}，最长的公共子串是compute，这是词干/根但我读到这不是问题的解决方案。实际上seems这甚至不是考虑因素，其他方法（后缀去除，随机等）是标准解决方案。

我的问题是：为什么N字的最长公共子字符串不能解决这个问题？

1 个答案:

答案 0 :(得分：2)

在许多语言中，语言词干通常不是常见的子串。例如，动词“be be”在许多语言中都是非常不规则的。

即使对于英语名词，也有例如{index，indices，indices}等特殊例子。你真的想用“索引”作为词干;如果你使用更短的“ind”作为词干，你就会发生冲突，在这种情况下，独立的政治家将他们的缩写政党称为“ind”。