应用错误收集

时间：2018-11-02 10:28:40

标签： apache-spark keras pyspark autoencoder systemml

我在群集上使用PySpark创建了一个非常大的 Spark Dataframe ，它太大而无法容纳到内存中。我也有一个带有Keras的自动编码器模型，它采用了Pandas数据框（内存中的对象）。

将这两个世界融合在一起的最佳方法是什么？

我找到了一些可在Spark上提供深度学习的库，但似乎仅适用于hyper parameter tuning或不支持Apache SystemML之类的自动编码器

我肯定不是第一个在Spark Dataframe上训练NN的人。我在概念上有差距，请帮忙！

答案 0 :(得分：0)

正如您提到的，Spark中的Pandas DF是内存中对象，并且不会分发培训。对于分布式培训，您必须依靠Spark DF和某些特定的第三方软件包来处理分布式培训：