我的数据框包含以下数据,列test_data包含WrappedArray[WrappedArray[String]]
类型的数据。
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
|LOT_NUMBER|MACHINE|FACILITY|LOT_TYPE| REC_DATE| FILE_NAME| TEST_DATA|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
| ZJ8281U6| GIMS01| BE6| SN|2019-01-22 00:28:57|201807182036_HJ82...|[[0.001E+00,1..|
+----------+-------+--------+--------+-------------------+--------------------+--------------------+
我测试了使用ORC和Parquet格式的写入,兽人慢得多需要3分钟,而Parquet只需3秒即可完成。
df.write.mode(SaveMode.Append).format("orc").save("/tmp/datalog/")
df.write.mode(SaveMode.Append).format("parquet").save("/tmp/datalog/")
很多文章都说兽人的表现要比镶木地板好,但我不知道花这么多时间来写。 任何专家都知道出了什么问题?或对我有什么建议?