我正在使用python Gensim来训练doc2vec。是否有可能允许此代码在AWS上分发(第3页)。 提前谢谢
答案 0 :(得分:1)
Gensim的Doc2Vec并非旨在通过多台计算机分发培训。这是一个重要而复杂的项目,以适应其最初的批量培训来做到这一点。
您确定您的数据集和目标需要此类分发吗?您可以在具有多个内核和内核的单台计算机上完成大量工作。 128GB + RAM。
请注意,您还可以在较小的代表性数据集上训练Doc2Vec模型,然后在冻结模型上使用其.infer_vector()
方法来计算任意数量的其他文本的doc-vectors。这些冻结的模型可以在多台机器上旋转 - 允许任意分布的doc-vectors计算。 (这比分发初始培训容易得多。)