我正在使用GoogleNews-vectors-negative300.bin
模型和pycontractions库来确定机器学习时当I'd
含义不明确时可以I would
来扩展收缩的最佳选项。 I had
。这个型号的尺寸非常大,大约3.5Gb。
我认为3.5Gb是一个非常大的模型,用于我的目的。可能我永远不会在这个模型中使用所有单词表示。有没有办法减少大小只提取对我的目的有用的单词表示?
答案 0 :(得分:2)
使用gensim
的{{1}}方法load_word2vec_format()
的可选参数,可以轻松地将该组截断为前N个单词。如果存在,则仅加载给定数量的单词。例如,limit
仅从提供的文件中读取前500,000个单词。
由于这些文件通常被排序以首先放置最频繁的单词,因此通常不会因丢弃“长尾”而损失太多。后来的话。 (他们在你的文本中出现频率较低,而且他们的单词向量在较少的例子上训练,因此质量较低,无论如何。)
如果你想在磁盘上放一个较小的文件,你可以重新limit=500000
截断的集合。
您还可以篡改磁盘上的文件,使其仅包含要保留的一些其他字词子集。在文本(save_word2vec_format()
)格式中执行此操作可能更容易。查看binary=False
/ gensim
的{{1}}源代码可以帮助您了解文件必须回读的内容。