解析为pandas datatime的问题

时间:2017-03-17 09:18:53

标签: python python-2.7 python-3.x pandas

我有一些我需要分析的csv文件。 csvs中有一个时间日期字段。以下是原始列的格式;

2017/02/17-12:56
2017/02/17-12:58
2017/02/17-1:00
2017/02/17-1:02
2017/02/17-1:04
2017/02/17-1:06

你可以看到它的12小时制。我不确定' - '在解析时给我带来了问题,所以我已经厌倦了把它剥掉然而由于某种原因它不会剥掉它,这就是我已经厌倦了:

df['TimeDate'] = df['TimeDate'].map(lambda x: x.rstrip('-')) # doesnt strip

df['TimeDate'] = pd.to_datetime(df['TimeDate'], format ='%Y/%m/%d-%I:%M') 
#error: time data 'TimeDate' does not match format '%Y/%m/%d-%I:%M' 

df.TimeDate = pd.to_datetime(df.TimeDate.str.strip('-'), format='%Y/%m/%d-%I:%M')
#error: time data 'TimeDate' does not match format '%Y/%m/%d-%I:%M'

df['TimeDate'] = df['TimeDate'].astype('datetime64[ns]')
#error: Error parsing datetime string "2017/03/14-11:32" at position 4

我不确定还能做什么。任何帮助深表感谢。 谢谢

1 个答案:

答案 0 :(得分:2)

如果你想使用lambda

import pandas
l = """2017/02/17-12:56
2017/02/17-12:58
2017/02/17-1:00
2017/02/17-1:02
2017/02/17-1:04
2017/02/17-1:06"""



p = pandas.DataFrame(l.split('\n'))

p = p.apply(lambda x: pandas.to_datetime(x))

>>p[0]
0   2017-02-17 12:56:00
1   2017-02-17 12:58:00
2   2017-02-17 01:00:00
3   2017-02-17 01:02:00
4   2017-02-17 01:04:00
5   2017-02-17 01:06:00
Name: 0, dtype: datetime64[ns]

编辑 - 字符串格式不起作用所以试试这个

import pandas

l = """2017/02/17-12:56
2017/02/17-12:58
2017/02/17-1:00
2017/02/17-1:02
2017/02/17-1:04
2017/02/17-1:06"""
p = pandas.Series(l.split('\n'))
df = p.to_frame('DateTime')

df['Date'] = df['DateTime'].str.split('-').str.get(0)
df['time'] = df['DateTime'].str.split('-').str.get(1)
df['TimeDate'] = pandas.to_datetime(df['Date'] + ' ' + df['time'])

df