Question

我正在提取不同源文件的信息。每个源文件对应于某些测量数据的给定快照时间。我有一个预处理功能，可以接收这些文件之一，并输出一个熊猫数据帧。因此，我进行了一个火花sc.wholeTextFiles调用，这给了我所有输入文件的列表，然后我在上面调用了map，这为我提供了一个rdd，其中每个元素都是一个熊猫数据帧。现在，什么将是“重塑”此结构的最佳方法，以使我只有一个结果数据帧，该数据帧由串联的较小数据帧组成？

Answer 1

您可以创建spark数据框。假设这些文件位于一个位置并且已被升空，则可以使用spark创建一个包含所有文件中数据的新数据框。

spark.read.option("header", "true").csv("../location/*")

之后，您可以使用spark中可用的许多转换。它们与熊猫非常相似，并且可以在大数据上运行，甚至比RDD更快。

熊猫数据帧的PySpark RDD

1 个答案: