使用pyspark从.dat转换为镶木地板数据格式后,为什么行数不同?即使我多次在同一个文件上重复转换,我也会得到不同的结果(略多于或略少于或等于原始行数)!
我正在使用16 GB的Macbook pro
.dat文件大小为16.5 gb
spark-2.3.2-bin-hadoop2.7。
我已经有来自数据提供者的行数(4500万行)。
首先,我阅读了.dat文件
2011_df = spark.read.text(filepath)
第二,我将其转换为镶木地板,此过程大约需要两个小时。
2011_df.write.option("compression","snappy").mode("overwrite").save("2011.parquet")
然后,我阅读了转换后的实木复合地板文件
de_parq = spark.read.parquet(filepath)
最后,我使用“计数”来获取行号。
de_parq.count()