解析spark中的RFC3339时间戳

时间:2017-12-04 18:21:03

标签: csv date apache-spark pyspark simpledateformat

Spark的CSV timestampFormat

  

timestampFormat - 设置指示时间戳格式的字符串。自定义日期格式遵循java.text.SimpleDateFormat中的格式。这适用于时间戳类型。如果设置为None,则使用默认值yyyy-MM-dd' H&C:HH:mm:ss.SSSXXX。

SimpleDateFormat似乎并不支持RFC3339,看起来像2017-11-27T07:10:07Z

在阅读CSV文件时,如何配置spark以解析此时间格式?

1 个答案:

答案 0 :(得分:0)

Spark将自动为您完成:

>>> df=spark.read.option("header","true").option("inferSchema","true").option("delimiter",",").csv("file:///temp/1.csv")
>>> df.printSchema()
root
 |-- ts: timestamp (nullable = true)
 |-- val: integer (nullable = true)

>>> df.show()
+-------------------+---+
|                 ts|val|
+-------------------+---+
|2017-11-27 08:10:07|  1|
|2017-11-28 09:08:08|  1|
|2017-11-30 00:59:59|  1|
+-------------------+---+