我有相对较多的(历史)Parquet文件,其结构已由模式描述,其中许多与时间相关的属性已编码为STRING(而不是TIMESTAMP)。现在,我想读取这些文件并“遍历”名称类似于“ time ”之类的字段的结构,并将这些属性转换为TIMESTAMP,最后将更新的DataFrame写回到新的Parquet文件,从而产生新的Parquet文件,其中所有与时间相关的字段都已转换为TIMESTAMP。我正在使用Spark 2.2。
我已经看到了Googleing的一些方法,但是,所有方法都基于“扁平”模式结构。由于我有很多MAP<STRUCT<STRUCT<...>>>
等,因此我需要另一种方法。
任何有关如何解决此问题的建议都非常感谢!