如何在Java中的大型Unicode文本文件中计算每个Unicode字符的频率?

时间:2019-05-16 06:55:20

标签: java file text unicode

我有一个很大的2GB Unicode txt文件,其中包含超过1亿个Unicode孟加拉语单词。现在,我需要计算文本文件中每个字符的频率(在txt文件中出现的次数)。我面临的两个主要问题。 1. txt文件的大尺寸。 2. Unicode 个字符 如何用Java做到这一点?提前致谢。

  

从txt文件中采样文本:
  textকাল... text text text .....

     

样本数:

     

ক:2

     

ল:2

     

ম:1

     

া:1

0 个答案:

没有答案