为什么Pyspark代码突然运行缓慢

时间:2018-12-12 10:20:13

标签: performance apache-spark pyspark

我有10个.dat大文件。 我正在使用Pyspark将这些文件转换为镶木地板格式,以使数据整理更快。 直到今天,我编写的代码都可以正常运行。 前几个.dat文件每个大约花费2个小时才能转换成镶木地板。 如今,突然之间,相同的代码将新的.dat文件转换为镶木地板非常慢。 我在较早运行的旧文件上再次运行了代码,现在转换过程大约需要4个小时而不是2个小时。 代码思路如下: 1-我读了.dat文件

2011_df = spark.read.text(filepath)

2-我解析.dat文件以使用“ substr”获取列

3-我将解析的数据帧转换为镶木地板,此过程大约需要两个小时。

2011_df.write.option("compression","snappy").mode("overwrite").save("2011.parquet")

4-之后,我阅读了转换后的实木复合地板文件

de_parq = spark.read.parquet(filepath)

所以,我的问题是为什么火花没有明显原因会变慢? 自使用个人笔记本电脑以来,是否应该删除Spark并重新安装? 我正在使用16 GB的Macbook Pro

spark-2.3.2-bin-hadoop2.7。 请指教。

0 个答案:

没有答案