标签: java file text unicode
我有一个很大的2GB Unicode txt文件,其中包含超过1亿个Unicode孟加拉语单词。现在,我需要计算文本文件中每个字符的频率(在txt文件中出现的次数)。我面临的两个主要问题。 1. txt文件的大尺寸。 2. Unicode 个字符 如何用Java做到这一点?提前致谢。
从txt文件中采样文本: textকাল... text text text ..... 样本数: ক:2 ল:2 ম:1 া:1
从txt文件中采样文本: textকাল... text text text .....
样本数:
ক:2
ল:2
ম:1
া:1