具有不同架构的实木复合地板

时间:2019-04-29 09:07:56

标签: python apache-spark pyspark

我的文件夹./my_file/*.parquet中有一个镶木地板文件列表。 好的一列具有“ date_time”列,该列应为整数(unix epoch timestamp)。

root
 |-- date_time: integer (nullable = true)

但是其中一些却改为具有实时时间戳字段。

root
 |-- date_time: timestamp (nullable = true)

问题是所有这些文件都在同一个文件夹中,当我读取它们时,数据帧上的任何action都会产生错误:

  

列:[date_time],预期值:LongType,找到:INT96

您有什么好的方法,以便可以轻松地将“时间戳”文件与“整数”文件分开吗? 我的文件夹中有超过3万个文件,但我不知道如何处理它们,因为任何操作都会产生错误。

0 个答案:

没有答案