通过正斜杠

时间:2016-05-22 08:11:53

标签: python pandas dataframe series

我试图通过使用python的rsplit函数将正斜杠拆分为一系列整数,但它不起作用。

原始数据

date
1/30/2015
1/30/2015
1/30/2015
1/30/2015
1/30/2015
1/30/2015
1/30/2015
1/30/2015
1/30/2015
1/30/2015

预期数据

我想通过'/'

分开
    date

'1' '30' '2015'
'1' '30' '2015'
'1' '30' '2015'
'1' '30' '2015'
'1' '30' '2015'
'1' '30' '2015'
'1' '30' '2015'

这样做的目的是将年份分开列。我之前尝试使用下面的代码。

date =  df['date']
split = date.rsplit("/")
OutputData['Year']=split[2]

分裂[2] - >是年份日期系列 - 目的是在单独的列中取年份

非常感谢提前

这是我每次'这是一系列对象'

时得到的错误

AttributeError:'Series'对象没有属性'split'

2 个答案:

答案 0 :(得分:2)

您可以使用str访问器在系列中使用字符串方法:

df["date"].str.rsplit("/")

或者将它们放在不同的列中:

df["date"].str.rsplit("/", expand = True)

使用系列文章,处理日期时间数据可能更好:

import pandas as pd
pd.to_datetime(df["date"]).dt.year
Out[10]: 
0    2015
1    2015
2    2015
3    2015
4    2015
5    2015
6    2015
7    2015
8    2015
9    2015
Name: date, dtype: int64

答案 1 :(得分:1)

IMO使用to_datetime将字符串转换为datetime会更有用,因此您可以对其执行算术运算,如果您想要年份或任何其他日期/时间组件,则可以使用向量化的dt访问者:

In [23]:
df['date'] = pd.to_datetime(df['date'])
df

Out[23]:
        date
0 2015-01-30
1 2015-01-30
2 2015-01-30
3 2015-01-30
4 2015-01-30
5 2015-01-30
6 2015-01-30
7 2015-01-30
8 2015-01-30
9 2015-01-30

In [24]:
df['year'] = df['date'].dt.year
df

Out[24]:
        date  year
0 2015-01-30  2015
1 2015-01-30  2015
2 2015-01-30  2015
3 2015-01-30  2015
4 2015-01-30  2015
5 2015-01-30  2015
6 2015-01-30  2015
7 2015-01-30  2015
8 2015-01-30  2015
9 2015-01-30  2015