我已经从Gensim培训了一个Word2vec模型,该模型在当前可以访问的虚拟机上使用时会很大(在https://tools.wmflabs.org/wembedder上,Wikimedia Foundation的Toolforge云服务上为“ Wombedder”)。我正在研究是否可以购买更大的虚拟机,但是我想知道是否可以在桌面模型上进行软件解决方案。
当前,一旦在相对较小的〜600.000 x 100大小的矩阵上加载模型,基于标准RAM的Gensim相似度计算就足够快,但是我想探索更大的模型。是否有用于基于桌面的Gensim mmap或基于数据库的模型且具有足够快的最相似功能的工具或在这些模型上工作?词汇量将是数千万,而嵌入式空间可能只是标准的100-300维。
我知道特征散列可能是另一种解决方案,但是我相信我会得到大量的散列冲突。
注意,我认为在训练过程中内存不是问题,因为我可能会为此找到一台大型计算机。