Spark的CSV timestampFormat
:
timestampFormat - 设置指示时间戳格式的字符串。自定义日期格式遵循java.text.SimpleDateFormat中的格式。这适用于时间戳类型。如果设置为None,则使用默认值yyyy-MM-dd' H&C:HH:mm:ss.SSSXXX。
SimpleDateFormat似乎并不支持RFC3339,看起来像2017-11-27T07:10:07Z
。
在阅读CSV文件时,如何配置spark以解析此时间格式?
答案 0 :(得分:0)
Spark将自动为您完成:
>>> df=spark.read.option("header","true").option("inferSchema","true").option("delimiter",",").csv("file:///temp/1.csv")
>>> df.printSchema()
root
|-- ts: timestamp (nullable = true)
|-- val: integer (nullable = true)
>>> df.show()
+-------------------+---+
| ts|val|
+-------------------+---+
|2017-11-27 08:10:07| 1|
|2017-11-28 09:08:08| 1|
|2017-11-30 00:59:59| 1|
+-------------------+---+