Pyspark创建时间戳列

时间:2017-08-02 19:28:38

标签: python datetime pyspark

我正在使用spark 2.1.0。我无法在pyspark中创建时间戳列我正在使用下面的代码片段。请帮忙

df=df.withColumn('Age',lit(datetime.now()))

我正在

  

断言错误:col应为Column

请帮忙

3 个答案:

答案 0 :(得分:8)

假设您的代码段中包含数据框,并且您希望所有行都有相同的时间戳。

让我创建一些虚拟数据帧。

>>> dict = [{'name': 'Alice', 'age': 1},{'name': 'Again', 'age': 2}]
>>> df = spark.createDataFrame(dict)

>>> import time
>>> import datetime
>>> timestamp = datetime.datetime.fromtimestamp(time.time()).strftime('%Y-%m-%d %H:%M:%S')
>>> type(timestamp)
<class 'str'>

>>> from pyspark.sql.functions import lit,unix_timestamp
>>> timestamp
'2017-08-02 16:16:14'
>>> new_df = df.withColumn('time',unix_timestamp(lit(timestamp),'yyyy-MM-dd HH:mm:ss').cast("timestamp"))
>>> new_df.show(truncate = False)
+---+-----+---------------------+
|age|name |time                 |
+---+-----+---------------------+
|1  |Alice|2017-08-02 16:16:14.0|
|2  |Again|2017-08-02 16:16:14.0|
+---+-----+---------------------+

>>> new_df.printSchema()
root
 |-- age: long (nullable = true)
 |-- name: string (nullable = true)
 |-- time: timestamp (nullable = true)

答案 1 :(得分:3)

我不确定2.1.0,至少在2.2.1上可以:

from pyspark.sql import functions as F
df.withColumn('Age', F.current_timestamp())

希望有帮助!

答案 2 :(得分:1)

添加到巴拉莱卡, 如果像我这样的人只想添加日期,而不是时间,那么他可以遵循以下代码

from pyspark.sql import functions as F
df.withColumn('Age', F.current_date())

希望这会有所帮助