检测n个文本文档中的相似单词

时间:2010-03-18 09:23:53

标签: design-patterns data-mining similarity

我有n个文件,想找到这些文件中包含的常用词。 例如,我想说(n-3)个文件包含“web”一词。

当然,我可以通过基本数据结构来做到这一点,但可能有效的算法或处理具有不同后缀的相同单词的方法。 是否有任何算法用于此类目的?

我对数据挖掘世界不熟悉。一般来说,是否有一个术语用于寻找不同文件之间的相似之处?如果有的话,我会轻松地进行研究。

感谢。

2 个答案:

答案 0 :(得分:1)

我想你在谈论stemming。如果您想使用R language,则必须使用tm package

如果没有,我只能建议list of text mining tools

答案 1 :(得分:0)

您可以通过生成包含每个文档的计数的单词列表,按字母顺序对单词列表进行排序以及比较两个列表来实现。这是O(n lg n)。

另一种方法是使用您选择的数据库提供的full text search