我有n个文件,想找到这些文件中包含的常用词。 例如,我想说(n-3)个文件包含“web”一词。
当然,我可以通过基本数据结构来做到这一点,但可能有效的算法或处理具有不同后缀的相同单词的方法。 是否有任何算法用于此类目的?
我对数据挖掘世界不熟悉。一般来说,是否有一个术语用于寻找不同文件之间的相似之处?如果有的话,我会轻松地进行研究。
感谢。
答案 0 :(得分:1)
我想你在谈论stemming
。如果您想使用R language,则必须使用tm package。
如果没有,我只能建议list of text mining tools
答案 1 :(得分:0)
您可以通过生成包含每个文档的计数的单词列表,按字母顺序对单词列表进行排序以及比较两个列表来实现。这是O(n lg n)。
另一种方法是使用您选择的数据库提供的full text search。