使用Pyspark将数据从.dat转换为实木复合地板

时间:2018-12-10 11:05:18

标签: apache-spark pyspark parquet

使用pyspark从.dat转换为镶木地板数据格式后,为什么行数不同?即使我多次在同一个文件上重复转换,我也会得到不同的结果(略多于或略少于或等于原始行数)!

我正在使用16 GB的Macbook pro

.dat文件大小为16.5 gb

spark-2.3.2-bin-hadoop2.7。

我已经有来自数据提供者的行数(4500万行)。

首先,我阅读了.dat文件

2011_df = spark.read.text(filepath)

第二,我将其转换为镶木地板,此过程大约需要两个小时。     2011_df.write.option("compression","snappy").mode("overwrite").save("2011.parquet")

然后,我阅读了转换后的实木复合地板文件

de_parq = spark.read.parquet(filepath)

最后,我使用“计数”来获取行号。

de_parq.count()

0 个答案:

没有答案