在pyspark数据框中查找字符串日期并将其转换为时间戳

时间:2018-07-28 13:32:00

标签: pyspark apache-spark-sql

在作为日期但存储为字符串的数据框中查找和转换字符串的最正确方法是什么?列名并不总是包含表示日期的单词。

x = [{"date": "2010-07-02", "value": 0.04}, {"date": "2010-07-03", "value": 0.05}]

y = json.dumps(x)

z = spark.read.option('multiline', "true").json(sc.parallelize([y]))

z.show()

+----------+-----+
|      date|value|
+----------+-----+
|2010-07-02| 0.04|
|2010-07-03| 0.05|
+----------+-----+

z.printSchema()

root
 |-- date: string (nullable = true)
 |-- value: double (nullable = true)

我想以编程方式找到日期字符串并将其转换为时间戳,从而产生一个如下所示的模式:

root
 |-- date: timestamp (nullable = true)
 |-- value: double (nullable = true)

感谢您帮助我进行思考。

0 个答案:

没有答案