apache-spark - 在100 + GB数据上训练Word2Vec - Thinbug

在100 + GB数据上训练Word2Vec

时间：2017-08-10 08:28:22

标签： apache-spark tensorflow nlp word2vec

我在s3中存储了超过100Gb的文本数据，存放在多个镶木地板文件中。我需要训练一个Word2Vec模型。我尝试使用Spark，但是对于超过10GB的数据，它会遇到内存错误。

我的下一个选择是在EMR上使用TensorFlow进行训练。但是我无法确定这种情况应该是什么样的正确培训策略？一个大节点或多个小节点，应该是该节点的大小。 tensorflow如何管理分布式数据？批量培训是一种选择吗？

0 个答案:

没有答案