使用Spark

时间:2018-06-26 17:36:30

标签: apache-spark dataframe parquet

我有相对较多的(历史)Parquet文件,其结构已由模式描述,其中许多与时间相关的属性已编码为STRING(而不是TIMESTAMP)。现在,我想读取这些文件并“遍历”名称类似于“ time ”之类的字段的结构,并将这些属性转换为TIMESTAMP,最后将更新的DataFrame写回到新的Parquet文件,从而产生新的Parquet文件,其中所有与时间相关的字段都已转换为TIMESTAMP。我正在使用Spark 2.2。

我已经看到了Googleing的一些方法,但是,所有方法都基于“扁平”模式结构。由于我有很多MAP<STRUCT<STRUCT<...>>>等,因此我需要另一种方法。

任何有关如何解决此问题的建议都非常感谢!

0 个答案:

没有答案