用Regex替换Pandas数据框中字符串的某个部分

时间:2016-09-09 00:39:56

标签: python regex pandas numpy substring

我的数据框有一个日期列(当前是字符串)。我正在尝试解决该列的问题。

df.Date.str.replace(('^(09|10|11|12)\/\d\d\/2016$'), '2015')

0         01/25/2016
1         02/28/2015
2               2015
3         02/24/2016
4               2015
5         02/24/2016
6         11/24/2015
7               2015
8         01/05/2016
9               2015
10        10/13/2015
11              2015
12        11/08/2015
13        02/26/2015
14              2015
15        12/17/2015
16        01/05/2015
17        01/21/2015
18              2015
19              2015
20        02/06/2016
21        10/06/2015
22        02/18/2016

我的数据应该在2015年9月至2016年2月的日期范围内。

部分数据的年份混乱(例如,见上文第2行 - 2016年11月17日!)

我要做的是改变日期不正确的观察年份。

我在Pandas中玩过replace()命令,但是无法使用有效的命令:

<scriptsrc="//ajax.googleapis.com/ajax/libs/jquery/1.11.2/jquery.min.js"></script>
<scriptsrc="//code.highcharts.com/highcharts.js"></script>
<scriptsrc="//code.highcharts.com/modules/data.js"></script>?

具体来说,我只是想根据某些条件更改每行的最后4位数(年份):

  1. 如果月份是在9月到12月(09到12)之间并且有一年 2016年,将此观察年度改为2015年

  2. 如果月份是1月或2月(01或02)并且有2015年,则将此观察的年份更改为2016

  3. 我上面写的命令确定了方案1的正确观察结果但是我无法替换最后4位数字并将结果输回到原始数据框中。

    最后一点注意事项:您可能在想为什么我不将列更改为日期时间类型,然后根据我的需要添加或减去一年?如果我试图这样做,我会遇到错误,因为一些观察的日期是:2015年2月29日 - &gt;你会遇到一个错误,因为2015年2月29日没有!

1 个答案:

答案 0 :(得分:2)

不要将日期视为字符串。您可以先将日期的字符串格式转换为时间戳,然后切片。

import pandas ad pd
df.loc[:, 'Date'] = pd.DatetimeIndex(df['Date'], name='Date')
df = df.set_index('Date')
df['2015-09': '2016-02']

更新

df.loc[:, 'year_month'] = df.Date.map(lambda s: int(s[-4:]+s[:3]))
df.query('201509<=year_month<=201602').drop('year_month', axis=1)
抱歉,我误解了你的问题。

def transform(date_string):
    year = date_string[-4:]
    month = date_string[:2]
    day = date_string[3:5]
    if year== '2016' and month in ['09', '10', '11', '12']:
        return month + '/' + day + '/' + str(int(year)-1)
    elif year == '2015' and month in ['01', '02', '03']:
        return month + '/' + day + '/' + str(int(year)+1)
    else:
        return date_string

df.loc[:, 'Date'] = df.Date.map(transform)