Question

我有10个.dat大文件。我正在使用Pyspark将这些文件转换为镶木地板格式，以使数据整理更快。直到今天，我编写的代码都可以正常运行。前几个.dat文件每个大约花费2个小时才能转换成镶木地板。如今，突然之间，相同的代码将新的.dat文件转换为镶木地板非常慢。我在较早运行的旧文件上再次运行了代码，现在转换过程大约需要4个小时而不是2个小时。代码思路如下： 1-我读了.dat文件

2011_df = spark.read.text(filepath)

2-我解析.dat文件以使用“ substr”获取列

3-我将解析的数据帧转换为镶木地板，此过程大约需要两个小时。

2011_df.write.option("compression","snappy").mode("overwrite").save("2011.parquet")

4-之后，我阅读了转换后的实木复合地板文件

de_parq = spark.read.parquet(filepath)

所以，我的问题是为什么火花没有明显原因会变慢？自使用个人笔记本电脑以来，是否应该删除Spark并重新安装？我正在使用16 GB的Macbook Pro

spark-2.3.2-bin-hadoop2.7。请指教。

为什么Pyspark代码突然运行缓慢

0 个答案: