我有一个这样的日期框架:
vendor\laravel\framework\src\Illuminate\Foundation\Auth\AuthenticatesUsers.php
哪个包含不正确的日期?因此,我想创建两个新列,如下所示:
import pandas as pd
df = pd.DataFrame({'Car_ID': ['B332', 'B332', 'B332', 'C315', 'C315', 'C315', 'C315', 'C315', 'F310', 'F310'], \
'Date': ['2018-03-15', '2018', '2018-03-12', '2018', '2018-03-16', '2018', \
'2018', '2018-03-11', '2018-03-10', '2018'], \
'Driver': ['Alex', 'Alex', 'Alex', 'Sara', 'Sara', 'Sara', 'Sara', 'Sara', 'Franck','Franck']})
df
Out:
Car_ID Date Driver
0 B332 2018-03-15 Alex
1 B332 2018 Alex
2 B332 2018-03-12 Alex
3 C315 2018 Sara
4 C315 2018-03-16 Sara
5 C315 2018 Sara
6 C315 2018 Sara
7 C315 2018-03-11 Sara
8 F310 2018-03-10 Franck
9 F310 2018 Franck
对于 Car_ID Date D_Min D_Max Driver
0 B332 2018-03-15 2018-03-15 2018-03-15 Alex
1 B332 2018 2018-03-12 2018-03-15 Alex
2 B332 2018-03-12 2018-03-12 2018-03-12 Alex
3 C315 2018 2018-03-16 2018 Sara
4 C315 2018-03-16 2018-03-16 2018-03-16 Sara
5 C315 2018 2018-03-11 2018-03-16 Sara
6 C315 2018 2018-03-11 2018-03-16 Sara
7 C315 2018-03-11 2018-03-11 2018-03-11 Sara
8 F310 2018-03-10 2018-03-10 2018-03-10 Franck
9 F310 2018 2018 2018-03-10 Franck
,对于错误的日期,我想选择正确的日期。如果之前的日期不正确,我将按原样进行处理,例如示例D_Min
。
我想对9 F310 2018 2018 2018-03-10 Franck
做同样的事情。但是,如果日期正确,则D_Max
和D_Min
应该相同。
感谢您的建议。
答案 0 :(得分:3)
首先用布尔掩码和mask
将NaN
的年份替换为groupby
,然后将bfill
的ffill
替换为fillna
的正向填充,最后替换{{3}}的NaN
s:
#only years are numeric
mask = df['Date'].str.isnumeric()
#alternative mask -check length of string
#mask = df['Date'].str.len() == 4
#not numeric return NaNs, so test non NaNs
#mask = pd.to_numeric(df['Date'], errors='coerce').notna()
s = df['Date'].mask(mask)
g = s.groupby(df['Driver'])
df['D_Min'] = g.bfill().fillna(df['Date'])
df['D_Max'] = g.ffill().fillna(df['Date'])
print (df)
Car_ID Date Driver D_Min D_Max
0 B332 2018-03-15 Alex 2018-03-15 2018-03-15
1 B332 2018 Alex 2018-03-12 2018-03-15
2 B332 2018-03-12 Alex 2018-03-12 2018-03-12
3 C315 2018 Sara 2018-03-16 2018
4 C315 2018-03-16 Sara 2018-03-16 2018-03-16
5 C315 2018 Sara 2018-03-11 2018-03-16
6 C315 2018 Sara 2018-03-11 2018-03-16
7 C315 2018-03-11 Sara 2018-03-11 2018-03-11
8 F310 2018-03-10 Franck 2018-03-10 2018-03-10
9 F310 2018 Franck 2018 2018-03-10
详细信息:
print (s)
0 2018-03-15
1 NaN
2 2018-03-12
3 NaN
4 2018-03-16
5 NaN
6 NaN
7 2018-03-11
8 2018-03-10
9 NaN
Name: Date, dtype: object
答案 1 :(得分:0)
df_grpd = df.groupby('Car_ID').agg({'Date': [sorted, min, max]})
print df_grpd
Date
sorted min max
Car_ID
B332 [2018, 2018-03-12, 2018-03-15] 2018 2018-03-15
C315 [2018, 2018, 2018, 2018-03-11, 2018-03-16] 2018 2018-03-16
F310 [2018, 2018-03-10] 2018 2018-03-10