我想将时间戳值拆分为日期和时间。
例如:
1/20/2016 3:20:30 PM
1/20/2016 3:20:31 PM
1/20/2016 3:20:32 PM
1/20/2016 3:20:32 PM
1/20/2016 3:20:32 PM
1/20/2016 3:20:33 PM
1/20/2016 3:20:34 PM
1/20/2016 3:20:34 PM
需要分为1/20/2016和3:20:30 PM
使用sql spilled函数我无法正确处理
split_col = pyspark.sql.functions.split(df['ServerTime'], ' ')
df_date = df.withColumn('Date', split_col.getItem(0))
df_time = df.withColumn('Time', split_col.getItem(1))
任何帮助人员????
答案 0 :(得分:3)
由于日期和时间可以采用任何格式,正确的做法是将日期字符串转换为Datetype(),然后从中提取日期和时间部分。
我们采取以下示例数据
server_times = sc.parallelize([('1/20/2016 3:20:30 PM',),
('1/20/2016 3:20:31 PM',),
('1/20/2016 3:20:32 PM',)]).toDF(['ServerTime'])
日期和时间部分可以按照以下格式提取。
from pyspark.sql.functions import unix_timestamp, from_unixtime, date_format
df.select(unix_timestamp(df.ServerTime, 'm/d/yyyy h:m:ss a').alias('ut'))\
.select(from_unixtime('ut').alias('dty'))\
.select(date_format('dty', 'M/d/yyyy').alias('Date'),
date_format('dty', 'h:m:s a').alias('Time'))\
.show()
+---------+----------+
| Date| Time|
+---------+----------+
|1/20/2016|3:20:30 PM|
|1/20/2016|3:20:31 PM|
|1/20/2016|3:20:32 PM|
+---------+----------+
如果需要,您可以将这两个投影到单独的数据框中。
答案 1 :(得分:1)
您可以使用pyspark.sql.functions.concat
再次将相关时间位连接在一起。我们首先创建一些测试数据:
df = sc.parallelize([('1/20/2016 3:20:30 PM',),
('1/20/2016 3:20:31 PM',),
('1/20/2016 3:20:32 PM',)]).toDF(['ServerTime'])
你可以这样做:
import pyspark.sql.functions as F
split_col = pyspark.sql.functions.split(df['ServerTime'], ' ')
df_date = df.withColumn('Date', split_col.getItem(0))
df_time = df.withColumn('Time', F.concat(split_col.getItem(1),F.lit(' '),split_col.getItem(2)))
运行df_time.show()
后,将返回以下输出:
+--------------------+----------+
| ServerTime| Time|
+--------------------+----------+
|1/20/2016 3:20:30 PM|3:20:30 PM|
|1/20/2016 3:20:31 PM|3:20:31 PM|
|1/20/2016 3:20:32 PM|3:20:32 PM|
+--------------------+----------+
运行df_date.show()
会返回:
+--------------------+---------+
| ServerTime| Date|
+--------------------+---------+
|1/20/2016 3:20:30 PM|1/20/2016|
|1/20/2016 3:20:31 PM|1/20/2016|
|1/20/2016 3:20:32 PM|1/20/2016|
+--------------------+---------+