我已经创建了2个数据框
Dataframe1:
DataFrame2:
所有这些操作都旨在统计记录数
我使用的命令是
DataFrame1:
df1 = spark.read.jdbc( )
df1.write.parquet( )
DataFrame2:
df = spark.read.jdbc( )
df.write.csv( )
df2=sqlContext.read.parquet(CSVfilePath)
当我查看两个数据框的计数时,为什么它们不同? Spark是否根据来源不同地处理转换操作?
我注意到CSV和Parquet文件的数量相同。