应用错误收集

我做了同样的数据挖掘，并在glassdoor上从google和microsoft中提取了所有的访谈问题： http://letschat.info/?p=34

我有两个清单。

我想做的就是拉一些其他公司面试问题，并尝试在多个来源之间找到相似的问题。

我做了一些谷歌搜索，我找到了这个项目：

然而，这似乎有点矫枉过正。是否有一个更简单的算法可以帮助我找到类似的问题？堆栈溢出使用什么算法？

我在考虑根据两个问题之间匹配的单词数生成分数，然后按这样过滤。

我想尝试将问题列表缩小到一系列独特的问题列表。

更新

我决定使用lucene。我将整个列表放入索引并遍历列表并使用lucene搜索10个类似的项目。然后我将10个结果的分数加起来，看看最常问的问题。

以下是实际代码的链接：http：//letschat.info/ranking-of-reduced-amazon-questions/