如何使用spark在AWS集群上训练doc2vec

时间:2017-05-30 05:06:59

标签: python-2.7 amazon-s3 aws-lambda doc2vec

我正在使用python Gensim来训练doc2vec。是否有可能允许此代码在AWS上分发(第3页)。 提前谢谢

1 个答案:

答案 0 :(得分:1)

Gensim的Doc2Vec并非旨在通过多台计算机分发培训。这是一个重要而复杂的项目,以适应其最初的批量培训来做到这一点。

您确定您的数据集和目标需要此类分发吗?您可以在具有多个内核和内核的单台计算机上完成大量工作。 128GB + RAM。

请注意,您还可以在较小的代表性数据集上训练Doc2Vec模型,然后在冻结模型上使用其.infer_vector()方法来计算任意数量的其他文本的doc-vectors。这些冻结的模型可以在多台机器上旋转 - 允许任意分布的doc-vectors计算。 (这比分发初始培训容易得多。)