如何在Spark数据帧上训练神经网络自动编码器(Keras)

时间:2018-11-02 10:28:40

标签: apache-spark keras pyspark autoencoder systemml

我在群集上使用PySpark创建了一个非常大的 Spark Dataframe ,它太大而无法容纳到内存中。我也有一个带有Keras的自动编码器模型,它采用了Pandas数据框(内存中的对象)。

将这两个世界融合在一起的最佳方法是什么?

我找到了一些可在Spark上提供深度学习的库,但似乎仅适用于hyper parameter tuning或不支持Apache SystemML之类的自动编码器

我肯定不是第一个在Spark Dataframe上训练NN的人。我在概念上有差距,请帮忙!

1 个答案:

答案 0 :(得分:0)

正如您提到的,Spark中的Pandas DF是内存中对象,并且不会分发培训。对于分布式培训,您必须依靠Spark DF和某些特定的第三方软件包来处理分布式培训:

您可以在这里找到信息: https://docs.databricks.com/applications/machine-learning/train-model/distributed-training/index.html