如何在制作语料库时增加gensim中的词典大小?

时间:2016-05-31 07:43:16

标签: python dictionary gensim

我正在使用命令

制作语料库
background_corpus = TextCorpus('wiki.en.text')

这是一个超过10 GB的文件,所以在制作这个语料库并将其添加到词典时,它会提供此

adding document #820000 to Dictionary(2000000 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk', u'billycorgan', u'olmsville']...)

discarding 31072 tokens: [(u'vnsas', 1), (u'ezequeel', 1), (u'trapeztafel', 1), (u'pubsub', 1), (u'gyvenimas', 1), (u'gilibrand', 1), (u'catfaced', 1), (u'beuningan', 1), (u'moodadi', 1), (u'nocaster', 1)]...

keeping 2000000 tokens which were in no less than 0 and no more than 830000 (=100.0%) documents

因此它丢弃了新的令牌,因为它的最大大小是2000000.无论如何我不能限制字典的大小吗?

1 个答案:

答案 0 :(得分:1)

这里是解释https://radimrehurek.com/gensim/corpora/dictionary.html。参数prune_at设置为2000000,根据您使用的功能,您可以将其更改为None以避免丢弃问题。

编辑:在gensim / corpora / dictionary.py(init函数当前版本中的第45行)中,您可以设置prune_at = None或设置自己的限制(5000000,例如prune_at = 5000000)。