数据帧计数操作不匹配

时间:2018-08-18 23:10:18

标签: apache-spark apache-spark-sql

我已经创建了2个数据框

Dataframe1:

  1. 读取PostgreSQL数据库:表A
  2. 将表A转换为拼花文件
  3. 读取实木复合地板文件作为数据框

DataFrame2:

  1. 读取PostgreSQL数据库:表A
  2. 将表A转换为CSV文件
  3. 已将CSV文件转换为镶木地板文件
  4. 将实木复合地板文件读取为数据框

所有这些操作都旨在统计记录数

我使用的命令是

DataFrame1:

 df1 = spark.read.jdbc( )
 df1.write.parquet( ) 

DataFrame2:

df = spark.read.jdbc( )
df.write.csv( )
df2=sqlContext.read.parquet(CSVfilePath) 

当我查看两个数据框的计数时,为什么它们不同? Spark是否根据来源不同地处理转换操作?

我注意到CSV和Parquet文件的数量相同。

0 个答案:

没有答案