我在群集上使用PySpark创建了一个非常大的 Spark Dataframe ,它太大而无法容纳到内存中。我也有一个带有Keras的自动编码器模型,它采用了Pandas数据框(内存中的对象)。
将这两个世界融合在一起的最佳方法是什么?
我找到了一些可在Spark上提供深度学习的库,但似乎仅适用于hyper parameter tuning或不支持Apache SystemML之类的自动编码器
我肯定不是第一个在Spark Dataframe上训练NN的人。我在概念上有差距,请帮忙!
答案 0 :(得分:0)
正如您提到的,Spark中的Pandas DF是内存中对象,并且不会分发培训。对于分布式培训,您必须依靠Spark DF和某些特定的第三方软件包来处理分布式培训:
您可以在这里找到信息: https://docs.databricks.com/applications/machine-learning/train-model/distributed-training/index.html