rdd在pyspark数据帧中是什么意思

时间:2019-10-13 20:32:02

标签: pyspark pyspark-sql

我是pyspark的新手。我想知道rdd在pyspark数据帧中是什么意思。

weatherData = spark.read.csv('weather.csv', header=True, inferSchema=True)

这两行代码具有相同的输出。我想知道rdd

有什么影响
weatherData.collect()
weatherData.rdd.collect()

1 个答案:

答案 0 :(得分:0)

数据框是表或二维数组状结构,其中每一列包含一个变量的度量,而每一行包含一个个案。

因此,DataFrame由于具有表格格式,因此具有其他元数据,这使得Spark可以在最终查询中运行某些优化。

另一方面,RDD仅仅是一个 R 弹性 D 分配的 D 资产集,无法像对其执行的操作那样无法优化的数据黑匣子,不受约束。

但是,您可以通过DataFrame的{​​{1}}方法将其从RDD转到.rdd,也可以将其从RDD转到DataFrame(如果RDD为表格格式) )通过.toDF()方法

通常,由于内置的​​查询优化功能,建议尽可能使用DataFrame。