谷歌新闻Word2Vec模型的小型号

时间:2018-06-05 21:41:05

标签: machine-learning models word2vec gensim

我正在使用GoogleNews-vectors-negative300.bin模型和pycontractions库来确定机器学习时当I'd含义不明确时可以I would来扩展收缩的最佳选项。 I had。这个型号的尺寸非常大,大约3.5Gb。

我认为3.5Gb是一个非常大的模型,用于我的目的。可能我永远不会在这个模型中使用所有单词表示。有没有办法减少大小只提取对我的目的有用的单词表示?

1 个答案:

答案 0 :(得分:2)

使用gensim的{​​{1}}方法load_word2vec_format()的可选参数,可以轻松地将该组截断为前N个单词。如果存在,则仅加载给定数量的单词。例如,limit仅从提供的文件中读取前500,000个单词。

由于这些文件通常被排序以首先放置最频繁的单词,因此通常不会因丢弃“长尾”而损失太多。后来的话。 (他们在你的文本中出现频率较低,而且他们的单词向量在较少的例子上训练,因此质量较低,无论如何。)

如果你想在磁盘上放一个较小的文件,你可以重新limit=500000截断的集合。

您还可以篡改磁盘上的文件,使其仅包含要保留的一些其他字词子集。在文本(save_word2vec_format())格式中执行此操作可能更容易。查看binary=False / gensim的{​​{1}}源代码可以帮助您了解文件必须回读的内容。