熊猫数据帧的PySpark RDD

时间:2020-06-29 11:55:18

标签: apache-spark pyspark

我正在提取不同源文件的信息。每个源文件对应于某些测量数据的给定快照时间。我有一个预处理功能,可以接收这些文件之一,并输出一个熊猫数据帧。因此,我进行了一个火花sc.wholeTextFiles调用,这给了我所有输入文件的列表,然后我在上面调用了map,这为我提供了一个rdd,其中每个元素都是一个熊猫数据帧。现在,什么将是“重塑”此结构的最佳方法,以使我只有一个结果数据帧,该数据帧由串联的较小数据帧组成?

1 个答案:

答案 0 :(得分:0)

您可以创建spark数据框。假设这些文件位于一个位置并且已被升空,则可以使用spark创建一个包含所有文件中数据的新数据框。

spark.read.option("header", "true").csv("../location/*")

之后,您可以使用spark中可用的许多转换。它们与熊猫非常相似,并且可以在大数据上运行,甚至比RDD更快。