标签: apache-spark tensorflow nlp word2vec
我在s3中存储了超过100Gb的文本数据,存放在多个镶木地板文件中。我需要训练一个Word2Vec模型。我尝试使用Spark,但是对于超过10GB的数据,它会遇到内存错误。
我的下一个选择是在EMR上使用TensorFlow进行训练。但是我无法确定这种情况应该是什么样的正确培训策略?一个大节点或多个小节点,应该是该节点的大小。 tensorflow如何管理分布式数据?批量培训是一种选择吗?