我是pyspark的新手。我想知道rdd在pyspark数据帧中是什么意思。
weatherData = spark.read.csv('weather.csv', header=True, inferSchema=True)
这两行代码具有相同的输出。我想知道rdd
有什么影响weatherData.collect()
weatherData.rdd.collect()
答案 0 :(得分:0)
数据框是表或二维数组状结构,其中每一列包含一个变量的度量,而每一行包含一个个案。
因此,DataFrame
由于具有表格格式,因此具有其他元数据,这使得Spark可以在最终查询中运行某些优化。
另一方面,RDD
仅仅是一个 R 弹性 D 分配的 D 资产集,无法像对其执行的操作那样无法优化的数据黑匣子,不受约束。
但是,您可以通过DataFrame
的{{1}}方法将其从RDD
转到.rdd
,也可以将其从RDD转到DataFrame(如果RDD为表格格式) )通过.toDF()
方法
通常,由于内置的查询优化功能,建议尽可能使用DataFrame。