PySpark - 在执行者

时间:2016-10-12 12:53:57

标签: apache-spark pyspark spark-dataframe

我正在使用Spark来并行化一些执行某些数据提取的现有代码并返回一个pandas数据帧。我想将这些pandas数据帧转换为一个或多个Spark数据帧。

的Nb。现有的代码非常复杂(涉及调用本机库等),因此不能将它直接移植到Spark代码。

以下是代码的简化示例:

import pandas as pd

def extract_df(s):
    # Lots of existing code that returns a large pandas dataframe
    # ...
    return pd.DataFrame({'x': s, 'y': [1, 2, 3], 'z': [4, 5, 6]})

sRDD = spark.sparkContext.parallelize(['A', 'B', 'C'])
dfsRDD = sRDD.map(lambda s: extract_df(s))

我知道我可以通过收集驱动程序将datesRDD转换为Spark数据帧。

spark.createDataFrame(pd.concat(rdd.collect(), ignore_index=True)).show()

但当然要求我可以将Pandas数据帧的整个集合保存在内存中,但我不能。

目前,我正在将Sandas数据帧写入S3上的json,然后使用Spark进行读取,但这是使用 lot 存储。

有没有什么方法可以告诉Spark转换为执行器本身的DataFrame / RDD?或者是否有其他方法我错过了?

1 个答案:

答案 0 :(得分:0)

很好,平坦地图救援!

import pandas as pd

def extract_df(s):
    # Lots of existing code that returns a **huge** pandas dataframe
    # ...
    df =  pd.DataFrame({'x': s, 'y': [1, 2, 3], 'z': [4, 5, 6]})
    return df.values.tolist()

datesRDD = spark.sparkContext.parallelize(['A', 'B', 'C'])

dfsRDD = datesRDD.flatMap(lambda s: extract_df(s))

spark.createDataFrame(dfsRDD, schema=['x', 'y', 'z']).show()

+---+---+---+
|  x|  y|  z|
+---+---+---+
|  A|  1|  4|
|  A|  2|  5|
|  A|  3|  6|
|  B|  1|  4|
|  B|  2|  5|
|  B|  3|  6|
|  C|  1|  4|
|  C|  2|  5|
|  C|  3|  6|
+---+---+---+