如何在Pandas中根据现有条件创建两个列?

时间:2018-07-11 13:22:29

标签: python pandas dataframe

我有一个这样的日期框架:

vendor\laravel\framework\src\Illuminate\Foundation\Auth\AuthenticatesUsers.php

哪个包含不正确的日期?因此,我想创建两个新列,如下所示:

import pandas as pd
df = pd.DataFrame({'Car_ID': ['B332', 'B332', 'B332', 'C315', 'C315', 'C315', 'C315', 'C315', 'F310', 'F310'], \
                    'Date': ['2018-03-15', '2018', '2018-03-12', '2018', '2018-03-16', '2018', \
                             '2018', '2018-03-11', '2018-03-10', '2018'], \
                    'Driver': ['Alex', 'Alex', 'Alex', 'Sara', 'Sara', 'Sara', 'Sara', 'Sara', 'Franck','Franck']})
df

Out:    
    Car_ID  Date        Driver
0   B332    2018-03-15  Alex
1   B332    2018        Alex
2   B332    2018-03-12  Alex
3   C315    2018        Sara
4   C315    2018-03-16  Sara
5   C315    2018        Sara
6   C315    2018        Sara
7   C315    2018-03-11  Sara
8   F310    2018-03-10  Franck
9   F310    2018        Franck

对于 Car_ID Date D_Min D_Max Driver 0 B332 2018-03-15 2018-03-15 2018-03-15 Alex 1 B332 2018 2018-03-12 2018-03-15 Alex 2 B332 2018-03-12 2018-03-12 2018-03-12 Alex 3 C315 2018 2018-03-16 2018 Sara 4 C315 2018-03-16 2018-03-16 2018-03-16 Sara 5 C315 2018 2018-03-11 2018-03-16 Sara 6 C315 2018 2018-03-11 2018-03-16 Sara 7 C315 2018-03-11 2018-03-11 2018-03-11 Sara 8 F310 2018-03-10 2018-03-10 2018-03-10 Franck 9 F310 2018 2018 2018-03-10 Franck ,对于错误的日期,我想选择正确的日期。如果之前的日期不正确,我将按原样进行处理,例如示例D_Min。 我想对9 F310 2018 2018 2018-03-10 Franck做同样的事情。但是,如果日期正确,则D_MaxD_Min应该相同。

感谢您的建议。

2 个答案:

答案 0 :(得分:3)

首先用布尔掩码和maskNaN的年份替换为groupby,然后将bfillffill替换为fillna的正向填充,最后替换{{3}}的NaN s:

#only years are numeric
mask = df['Date'].str.isnumeric()
#alternative mask -check length of string
#mask = df['Date'].str.len() == 4
#not numeric return NaNs, so test non NaNs
#mask = pd.to_numeric(df['Date'], errors='coerce').notna()

s = df['Date'].mask(mask)

g = s.groupby(df['Driver'])
df['D_Min'] = g.bfill().fillna(df['Date'])
df['D_Max'] = g.ffill().fillna(df['Date'])

print (df)
  Car_ID        Date  Driver       D_Min       D_Max
0   B332  2018-03-15    Alex  2018-03-15  2018-03-15
1   B332        2018    Alex  2018-03-12  2018-03-15
2   B332  2018-03-12    Alex  2018-03-12  2018-03-12
3   C315        2018    Sara  2018-03-16        2018
4   C315  2018-03-16    Sara  2018-03-16  2018-03-16
5   C315        2018    Sara  2018-03-11  2018-03-16
6   C315        2018    Sara  2018-03-11  2018-03-16
7   C315  2018-03-11    Sara  2018-03-11  2018-03-11
8   F310  2018-03-10  Franck  2018-03-10  2018-03-10
9   F310        2018  Franck        2018  2018-03-10

详细信息

print (s)
0    2018-03-15
1           NaN
2    2018-03-12
3           NaN
4    2018-03-16
5           NaN
6           NaN
7    2018-03-11
8    2018-03-10
9           NaN
Name: Date, dtype: object

答案 1 :(得分:0)

df_grpd = df.groupby('Car_ID').agg({'Date': [sorted, min, max]})
print df_grpd

                                              Date
                                            sorted   min         max
Car_ID
B332                [2018, 2018-03-12, 2018-03-15]  2018  2018-03-15
C315    [2018, 2018, 2018, 2018-03-11, 2018-03-16]  2018  2018-03-16
F310                            [2018, 2018-03-10]  2018  2018-03-10