Python熊猫从不干净的列中提取年份信息

时间:2019-08-12 16:42:11

标签: python regex pandas extract

我有一个DataFrame,行数超过111K。我正在尝试从未清除的列Date中提取年份信息(19 **,20 **)并将年份信息填充到新的Result列中,Date列中的某些行包含中文/英语单词。

df.Date.str.extract('20\d{2}') | df.Date.str.extract('19\d{2}')

我使用str.extract()来匹配并提取年份,但是收到了ValueError: pattern contains no capture groups消息。如何获取年份信息并填写新的Result列?

Rating    Date    
7.8    (June 22, 2000)   
8.0    01 April, 1997    
8.3    01 December, 1988    
7.7    01 November, 2005    
7.9    UMl Reprint University Illinois 1966 Ed    
7.7    出版日期:2008-06    
7.3    出版时间:2009.04    
7.7    台北 : 橡樹林文化, 2006.    
7.0    机械工业出版社; 第1版 (2014年11月13日)    
8.1    民国57年(1968)    
7.8    民国79 [1990]    
8.9    2010-09-13    
9.3    01 (2008)    
8.8    1998年4月第11次印刷    
7.9    2000    
7.3    2004    

3 个答案:

答案 0 :(得分:1)

示例数据框:

var input = "\r\n\r\nMaster = \r\nSlave\r\nRed =\r\n Blue";

var dict = new Dictionary<string, string>();
var currentKey = "";

foreach (var item in input.Split(new[] { '\r', '\n' }, 
    StringSplitOptions.RemoveEmptyEntries))
{
    var parts = item.Split(new[] { '=' }, 
        StringSplitOptions.RemoveEmptyEntries);

    if (currentKey.Length == 0)
    {
        if (parts.Length > 1 && !string.IsNullOrWhiteSpace(parts[1]))
        {
            dict.Add(parts[0].Trim(), parts[1].Trim());
        }
        else
        {
            currentKey = parts[0].Trim();
        }
    }
    else
    {
        dict.Add(currentKey, parts.Length > 1 
            ? parts[1].Trim() 
            : parts[0].Trim());

        currentKey = "";
    }
}

您也可以将其作为一个衬纸:

                Date
0               2000
1      1998年4月第11次印刷
2  01 November, 2005
3       出版日期:2008-06
4    (June 22, 2000)

输出:

df['Year'] = df.Date.str.extract(r'(19\d{2}|20\d{2})')

答案 1 :(得分:0)

该错误表明正则表达式必须至少具有一个捕获组,即一对感觉之间的序列。

在我提出的解决方案中,我添加了一个捕获组和两个非捕获组。如您所说,提取的数据随后被插入到Result列中。

>>> df['Result'] = df.Date.str.extract(r'((?:19\d{2})|(?:20\d{2}))')

    Rating                                               Date Result
0      7.8                                    (June 22, 2000)   2000
1      8.0                                     01 April, 1997   1997
2      8.3                                  01 December, 1988   1988
3      7.7                                  01 November, 2005   2005
4      7.9            UMl Reprint University Illinois 1966 Ed   1966
5      7.7                             出版日期:2008-06   2008
6      7.3                             出版时间:2009.04   2009
7      7.7                    �北 : 橡樹林文化, 2006.   2006
8      7.0  机械工业出版社; 第1版 (2014年11月13...   2014
9      8.1                              民国57年(1968)   1968
10     7.8                                    民国79 [1990]   1990
11     8.9                                         2010-09-13   2010
12     9.3                                          01 (2008)   2008
13     8.8                          1998年4月第11次�刷   1998
14     7.9                                               2000   2000
15     7.3                                               None    NaN

答案 2 :(得分:0)

在给定的情况下,这份工作应该为您服务吗。

只是一个示例数据集:

>>> df
                Date
0               2000
1      1998年4月第11次印刷
2  01 November, 2005
3       出版日期:2008-06
4    (June 22, 2000)

解决方案:

>>> df.Date.str.extract(r'(\d{4})', expand=False)
0    2000
1    1998
2    2005
3    2008
4    2000

>>> df['Year'] = df.Date.str.extract(r'(\d{4})', expand=False)
>>> df
                Date        Year
0               2000        2000
1      1998年4月第11次印刷   1998
2  01 November, 2005        2005
3       出版日期:2008-06    2008
4    (June 22, 2000)        2000

使用assign的另一种技巧,将值分配回新列Year

>>> df  = df.assign(Year = df.Date.str.extract(r'(\d{4})', expand=False))
>>> df
                Date        Year
0               2000        2000
1      1998年4月第11次印刷   1998
2  01 November, 2005        2005
3       出版日期:2008-06    2008
4    (June 22, 2000)        2000