ORC在Spark SQL中的写入速度比Parquet慢得多

时间:2019-01-20 17:10:23

标签: scala performance apache-spark apache-spark-sql

我的数据框包含以下数据,列test_data包含WrappedArray[WrappedArray[String]]类型的数据。

+----------+-------+--------+--------+-------------------+--------------------+--------------------+
|LOT_NUMBER|MACHINE|FACILITY|LOT_TYPE|           REC_DATE|           FILE_NAME|           TEST_DATA|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
|  ZJ8281U6| GIMS01|   BE6|      SN|2019-01-22 00:28:57|201807182036_HJ82...|[[0.001E+00,1..|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+

我测试了使用ORC和Parquet格式的写入,兽人慢得多需要3分钟,而Parquet只需3秒即可完成。

df.write.mode(SaveMode.Append).format("orc").save("/tmp/datalog/")
df.write.mode(SaveMode.Append).format("parquet").save("/tmp/datalog/")

很多文章都说兽人的表现要比镶木地板好,但我不知道花这么多时间来写。 任何专家都知道出了什么问题?或对我有什么建议?

0 个答案:

没有答案