如何使用Java计算文本文件中单词的频率?

时间:2012-05-12 05:30:41

标签: java word-count text-files

我有一个大文本文件(大小远高于1G),我想用Java来计算该文件中某个单词的外观。文件中的文本写在一行上,因此可能无法逐行检查。什么是解决这个问题的最佳方法?

4 个答案:

答案 0 :(得分:2)

您希望使用Scanner类Java来逐字消耗该巨大文件。调用useDelimiter(...)方法一次,以配置单词的分割方式(可能只是空格字符),然后使用hasNext()和getNext()循环遍历文件内容。

对于计数本身,您可以使用HashMap来简化。

答案 1 :(得分:1)

您可以使用Trie数据结构的轻微变体。此DS用于创建单词词典。要搜索“堆栈”的示例,您可以通过传递“Sta”来搜索trie,它将返回以“Sta”开头的所有单词。

现在在你的问题中,你可以逐字遍历文件并将其放在trie中。为每个单词添加额外的字段'count'。现在,当您插入修改过的尝试时,您可以增加“计数”。现在你已经计算了特里的所有单词。

我认为内存使用量不应太多,因为1G文件中的大多数单词都会重复出现。您只需要遍历文件一次。而且,一旦你有这个特里,你可以搜索多个单词而不会造成性能损失。

编辑:

我必须同意@Bananeweizen,如果你需要完全匹配,HashMap也是一个很好的解决方案。所以逐字阅读并放入HashMap。内存使用量应与try相同。

答案 2 :(得分:0)

首先,您需要对单词进行排序,使其按字母顺序排列。在读取数据并在空格上分割单词后,有许多方法可以做到这一点。您还需要在排序之前删除特殊字符和标点符号。

排序后,您定位的字词将并排显示,这会使您的搜索成为O(N)问题。此时,您可以使用循环结构来比较每个单词,直到找到单词的第一个实例。此时,您继续循环,计算每个单词,直到您到达下一个单词。

此时,您知道您的收藏中不再有该单词的实例,您可以暂停搜索。

这种特殊的搜索算法是O(N)最坏的情况。如果你的单词是“苹果”,那么搜索的完成速度可能比你的单词“斑马”要快得多。

您可以选择其他算法,具体取决于您的具体需求。

我假设你的问题是这是一项编程工作而不是工作的实际问题。如果这是一个工作上的问题,那么这个问题已经无数次解决了,并且有很多Java的搜索库可以帮助你解决这个问题,包括Java标准库中的工具。

答案 3 :(得分:-2)

您可以使用外部工具构建一些文本索引。之后,您将能够快速找到此索引中的不同单词。 例如。你可以让Lucene建立这样的索引。然后简单地获得条款的频率。类似的问题counting the word frequency in lucene index包含文章和代码示例的链接。