通过蜂巢,猪,火花读取orc文件时的时间戳差异

时间:2018-06-13 11:28:12

标签: apache-spark hadoop hive apache-pig orc

我有一个带有timestamp数据类型的日期字段,从架构中读取。 当我使用

加载文件数据时
  1. hive --orcfiledump -d filename命令,我将{"date":"2018-05-25 13:11:19"}作为输出。
  2. 但是当使用命令

    加载pyspark2时
    df = spark.read.orc('filepath')
    df.show()
    

    我收到“2018-05-25 05:11:...作为输出。 当使用自定义猪装载器读取相同内容时,我得到2018-05-25 12:11:19作为时间戳。

    无法理解为何会出现这种差异。在寻找这个时,我知道一些夏令时的差异就在那里。但无法与我的用例相关。

0 个答案:

没有答案