应用错误收集

我有相对较多的（历史）Parquet文件，其结构已由模式描述，其中许多与时间相关的属性已编码为STRING（而不是TIMESTAMP）。现在，我想读取这些文件并“遍历”名称类似于“ time ”之类的字段的结构，并将这些属性转换为TIMESTAMP，最后将更新的DataFrame写回到新的Parquet文件，从而产生新的Parquet文件，其中所有与时间相关的字段都已转换为TIMESTAMP。我正在使用Spark 2.2。

我已经看到了Googleing的一些方法，但是，所有方法都基于“扁平”模式结构。由于我有很多MAP<STRUCT<STRUCT<...>>>等，因此我需要另一种方法。

任何有关如何解决此问题的建议都非常感谢！

使用Spark

0 个答案: