应用错误收集

时间：2010-03-18 09:23:53

标签： design-patterns data-mining similarity

我有n个文件，想找到这些文件中包含的常用词。例如，我想说（n-3）个文件包含“web”一词。

当然，我可以通过基本数据结构来做到这一点，但可能有效的算法或处理具有不同后缀的相同单词的方法。是否有任何算法用于此类目的？

我对数据挖掘世界不熟悉。一般来说，是否有一个术语用于寻找不同文件之间的相似之处？如果有的话，我会轻松地进行研究。

感谢。

答案 0 :(得分：1)

我想你在谈论stemming。如果您想使用R language，则必须使用tm package。

如果没有，我只能建议list of text mining tools

答案 1 :(得分：0)

您可以通过生成包含每个文档的计数的单词列表，按字母顺序对单词列表进行排序以及比较两个列表来实现。这是O（n lg n）。

另一种方法是使用您选择的数据库提供的full text search。