术语频率使用java程序

时间:2010-09-05 18:09:07

标签: java

我有一套文件。我想知道每个文档中每个单词的频率计数(即)使用java程序的术语频率。提前致谢。我知道如何找到每个单词的频率计数。我的问题是如何从文档列表中获取每个文档中的唯一单词

2 个答案:

答案 0 :(得分:2)

您可以在空格和标点符号上拆分文档,浏览生成的数组,然后计算每个单词的频率(Map<String, Integer>可以帮助您解决此问题。)


资源:

关于同一主题:

答案 1 :(得分:1)

如果要解决的问题不止一次,您应该考虑使用Lucene索引文档。然后this post会帮助您回答您的问题。