我正在使用Spark来并行化一些执行某些数据提取的现有代码并返回一个pandas数据帧。我想将这些pandas数据帧转换为一个或多个Spark数据帧。
的Nb。现有的代码非常复杂(涉及调用本机库等),因此不能将它直接移植到Spark代码。
以下是代码的简化示例:
import pandas as pd
def extract_df(s):
# Lots of existing code that returns a large pandas dataframe
# ...
return pd.DataFrame({'x': s, 'y': [1, 2, 3], 'z': [4, 5, 6]})
sRDD = spark.sparkContext.parallelize(['A', 'B', 'C'])
dfsRDD = sRDD.map(lambda s: extract_df(s))
我知道我可以通过收集驱动程序将datesRDD转换为Spark数据帧。
spark.createDataFrame(pd.concat(rdd.collect(), ignore_index=True)).show()
但当然要求我可以将Pandas数据帧的整个集合保存在内存中,但我不能。
目前,我正在将Sandas数据帧写入S3上的json,然后使用Spark进行读取,但这是使用 lot 存储。
有没有什么方法可以告诉Spark转换为执行器本身的DataFrame / RDD?或者是否有其他方法我错过了?
答案 0 :(得分:0)
很好,平坦地图救援!
import pandas as pd
def extract_df(s):
# Lots of existing code that returns a **huge** pandas dataframe
# ...
df = pd.DataFrame({'x': s, 'y': [1, 2, 3], 'z': [4, 5, 6]})
return df.values.tolist()
datesRDD = spark.sparkContext.parallelize(['A', 'B', 'C'])
dfsRDD = datesRDD.flatMap(lambda s: extract_df(s))
spark.createDataFrame(dfsRDD, schema=['x', 'y', 'z']).show()
+---+---+---+
| x| y| z|
+---+---+---+
| A| 1| 4|
| A| 2| 5|
| A| 3| 6|
| B| 1| 4|
| B| 2| 5|
| B| 3| 6|
| C| 1| 4|
| C| 2| 5|
| C| 3| 6|
+---+---+---+