应用错误收集

使用pyspark从.dat转换为镶木地板数据格式后，为什么行数不同？即使我多次在同一个文件上重复转换，我也会得到不同的结果（略多于或略少于或等于原始行数）！

我正在使用16 GB的Macbook pro

.dat文件大小为16.5 gb

spark-2.3.2-bin-hadoop2.7。

我已经有来自数据提供者的行数（4500万行）。

首先，我阅读了.dat文件

2011_df = spark.read.text(filepath)

第二，我将其转换为镶木地板，此过程大约需要两个小时。 2011_df.write.option("compression","snappy").mode("overwrite").save("2011.parquet")

然后，我阅读了转换后的实木复合地板文件

de_parq = spark.read.parquet(filepath)

最后，我使用“计数”来获取行号。

de_parq.count()