在很大的unicode语料库中计算单词词频的最快方法?

时间:2019-01-27 15:33:06

标签: php counting corpus word-frequency

我有一个大型的Unicode单语语料库,包含超过1亿个单词,大小为1.7GB。现在,我需要找到该语料库中每个单词的词频,以便可以在该语料库中找到20个最常见的单词和20个最不常见的单词。例如(为便于理解,该示例以瑞典语而不是孟加拉语给出)

Corpus:

  

jag hart ett stort husocksåjag har ett stortfältjag。

词频:

  

jag 3

     

har 2

     

ett 2

     

stort 2

     

人类1

     

失败1

目标

  

最频繁:

     

jag 3

     

har 2

     

最不频繁:

     

人类1

     

失败1

,当我尝试使用mysql数据库存储语料库中的新单词并将其频率每次提高1时。这样最后我就可以知道它们的出现频率了。但是,花了2天才能完成10%的语料库。我尝试了另一种方法,通过保留txt文件来记录每个单词的出现频率。但是,由于系统不适用于unicode字,因此失败。请给我建议一种简便快捷的方法。

0 个答案:

没有答案