来自Pyspark的熊猫在火花

时间:2019-02-25 11:26:31

标签: pandas apache-spark pyspark

如果我创建了数据框或rdd并将其转换为熊猫数据框。仍然可以使用spark吗?还是只能在python内存中使用?

1 个答案:

答案 0 :(得分:1)

如果您仅将spark df或rdd转换为熊猫,您将在主数据库中(即在一台机器上)获得所有数据

Spark,从2.4.0版开始(您可能之前也已经做过,但是需要做更多的来回翻译),它具有创建Pandas用户定义函数的功能(Pandas UDF参见{{3} }),可让您以分布式方式使用熊猫。请注意,在这种情况下,每个熊猫实例都将获得部分数据