Question

我的数据框包含以下数据，列test_data包含WrappedArray[WrappedArray[String]]类型的数据。

+----------+-------+--------+--------+-------------------+--------------------+--------------------+
|LOT_NUMBER|MACHINE|FACILITY|LOT_TYPE|           REC_DATE|           FILE_NAME|           TEST_DATA|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
|  ZJ8281U6| GIMS01|   BE6|      SN|2019-01-22 00:28:57|201807182036_HJ82...|[[0.001E+00,1..|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+

我测试了使用ORC和Parquet格式的写入，兽人慢得多需要3分钟，而Parquet只需3秒即可完成。

df.write.mode(SaveMode.Append).format("orc").save("/tmp/datalog/")
df.write.mode(SaveMode.Append).format("parquet").save("/tmp/datalog/")

很多文章都说兽人的表现要比镶木地板好，但我不知道花这么多时间来写。任何专家都知道出了什么问题？或对我有什么建议？

ORC在Spark SQL中的写入速度比Parquet慢得多

0 个答案: