应用错误收集

我有一个大型的Unicode单语语料库，包含超过1亿个单词，大小为1.7GB。现在，我需要找到该语料库中每个单词的词频，以便可以在该语料库中找到20个最常见的单词和20个最不常见的单词。例如（为便于理解，该示例以瑞典语而不是孟加拉语给出）

Corpus：

jag hart ett stort husocksåjag har ett stortfältjag。

词频：

jag 3

har 2

ett 2

stort 2

人类1

失败1

目标：

最频繁：

jag 3

har 2

最不频繁：

人类1

失败1

但，当我尝试使用mysql数据库存储语料库中的新单词并将其频率每次提高1时。这样最后我就可以知道它们的出现频率了。但是，花了2天才能完成10％的语料库。我尝试了另一种方法，通过保留txt文件来记录每个单词的出现频率。但是，由于系统不适用于unicode字，因此失败。请给我建议一种简便快捷的方法。