我问了一个类似的问题here,但我想扩展这个问题,因为我被要求做一些我不能使用的东西.duplicates()
我有一个按'Key'分组的df。我想标记排放日期与排放日期匹配的组内的任何行和排放日期之间的排,具有排放日期的行具有5-12范围内的num1值。
df = pd.DataFrame({'Key': ['10003', '10003', '10003', '10003', '10003','10003','10034', '10034'],
'Num1': [12,13,13,13,12,13,15,12],
'Num2': [121,122,122,124,125,126,127,128],
'admit': [20120506, 20120508, 20121010,20121010,20121010,20121110,20120520,20120520], 'discharge': [20120508, 20120510, 20121012,20121016,20121023,20121111,20120520,20120520]})
df['admit'] = pd.to_datetime(df['admit'], format='%Y%m%d')
df['discharge'] = pd.to_datetime(df['discharge'], format='%Y%m%d')
初始df
Key Num1 Num2 admit discharge
0 10003 12 121 2012-05-06 2012-05-08
1 10003 13 122 2012-05-08 2012-05-10
2 10003 13 122 2012-10-10 2012-10-12
3 10003 13 124 2012-10-10 2012-10-16
4 10003 12 125 2012-10-10 2012-10-23
5 10003 13 126 2012-11-10 2012-11-11
6 10034 15 127 2012-05-20 2012-05-20
7 10034 12 128 2012-05-20 2012-05-20
最终df
Key Num1 Num2 admit discharge flag
0 10003 12 121 2012-05-06 2012-05-08 1
1 10003 13 122 2012-05-08 2012-05-10 1
2 10003 13 122 2012-10-10 2012-10-12 0
3 10003 13 124 2012-10-10 2012-10-16 0
4 10003 12 125 2012-10-10 2012-10-23 0
5 10003 13 126 2012-11-10 2012-11-11 0
6 10034 15 127 2012-05-20 2012-05-20 1
7 10034 12 128 2012-05-20 2012-05-20 1
我试图使用filter()但我无法弄清楚如何将任何()应用于放电日期。我的逻辑是选择组中的第一个录取日期,然后在每个放电日期之间检查该日期,并且一旦匹配,则检查具有相同放电日期的行是否具有Num1中的值,范围为5-12 。
num1_range = [5,6,7,8,9,10,11,12]
df.loc[df.groupby(['Key']).filter(lambda x : (x['admit'] == x['discharge'].any())&(x['Num1'].isin(num1_range).any())),'flag']=1
我收到错误
ValueError: cannot set a Timestamp with a non-timestamp
答案 0 :(得分:2)
我相信您正在寻找满足flag = True
的两个条件之一:
Key
)。Num1
的范围是5到12(包括5和12),则出货日期等于任何允许的日期。以下逻辑产生的结果与您想要的输出一致。
<强>解决方案强>
d1 = df.groupby('Key')['admit'].apply(set).to_dict()
d2 = df.groupby('Key')['discharge'].apply(set).to_dict()
def flagger(row):
match1, match2 = row['discharge'] in d1[row['Key']], row['admit'] in d2[row['Key']]
return match2 or (match1 and (row['Num1'] in range(5, 13)))
df['flag'] = df.apply(flagger, axis=1).astype(int)
<强>结果强>
Key Num1 Num2 admit discharge flag
0 10003 12 121 2012-05-06 2012-05-08 1
1 10003 13 122 2012-05-08 2012-05-10 1
2 10003 13 122 2012-10-10 2012-10-12 0
3 10003 13 124 2012-10-10 2012-10-16 0
4 10003 12 125 2012-10-10 2012-10-23 0
5 10003 13 126 2012-11-10 2012-11-11 0
6 10034 15 127 2012-05-20 2012-05-20 1
7 10034 12 128 2012-05-20 2012-05-20 1
<强>解释强>
pd.DataFrame.apply
来应用行指定的条件。答案 1 :(得分:1)
让我们将过滤分解为几步。首先,创建要过滤的条件
conditions = "(x['discharge'].isin(x['admit'])) & (x['Num1'] >= 5) & (x['Num1'] <= 12)"
我选择将conditions
存储为字符串,因为它对于格式化下一步看起来更干净。但是,过滤器命令将用于通过数据框中的key
检查是否有任何放电时间等于允许时间。并且还会检查Num1
时间discharge
是否在5到12之间。现在我们运行groupby
操作并评估conditions
filter = df.groupby('Key').apply(lambda x: pd.eval(conditions))
filter.index = filter.index.droplevel(0)
filter
将输出此
0 True
1 False
2 False
3 False
4 False
5 False
6 False
7 True
dtype: bool
filter
提供了一些布尔标志conditions
保持为真。最后一步是将admit
次equlivant的标志添加到dischagre
次,这可以通过将初始数据帧与用于提取admit
标志的索引的过滤位置合并来完成。
dex = df.merge(df[filter.values],left_on=['Key','admit'],right_on=['Key','discharge'],how='left').dropna().index
最后设置flags
,其中任一条件为True
df['flag'] = (filter | df.index.isin(dex)).astype(int)
完整代码:
conditions = "(x['discharge'].isin(x['admit'])) & (x['Num1'] >= 5) & (x['Num1'] <= 12)"
filter = df.groupby('Key').apply(lambda x: pd.eval(conditions))
filter.index = filter.index.droplevel(0)
dex = df.merge(df[filter.values],left_on=['Key','admit'],right_on=['Key','discharge'],how='left').dropna().index
df['flag'] = (filter | df.index.isin(dex)).astype(int)
<强>输出:强>
Key Num1 Num2 admit discharge flag
0 10003 12 121 2012-05-06 2012-05-08 1
1 10003 13 122 2012-05-08 2012-05-10 1
2 10003 13 122 2012-10-10 2012-10-12 0
3 10003 13 124 2012-10-10 2012-10-16 0
4 10003 12 125 2012-10-10 2012-10-23 0
5 10003 13 126 2012-11-10 2012-11-11 0
6 10034 15 127 2012-05-20 2012-05-20 1
7 10034 12 128 2012-05-20 2012-05-20 1
答案 2 :(得分:0)
如果我理解正确的逻辑,我会这样写:
num1_range = [5,6,7,8,9,10,11,12]
def get_flags(group):
flagged_discharge_dates=group.loc[group['Num1'].isin(num1_range),'discharge']
flag=group['admit'].isin(flagged_discharge_dates)
flag=flag.astype(int)
return flag
df['flag']=df.groupby('Key',group_keys=False).apply(get_flags)
df
返回
Key Num1 Num2 admit discharge flag
0 10003 12 121 2012-05-06 2012-05-08 0
1 10003 13 122 2012-05-08 2012-05-10 1
2 10003 13 122 2012-10-10 2012-10-12 0
3 10003 13 124 2012-10-10 2012-10-16 0
4 10003 12 125 2012-10-10 2012-10-23 0
5 10003 13 126 2012-11-10 2012-11-11 0
6 10034 15 127 2012-05-20 2012-05-20 1
7 10034 12 128 2012-05-20 2012-05-20 1
我认为根据指定的逻辑是正确的(但与原帖中的预期结果不同)
答案 3 :(得分:0)
修改: - 强> 此解决方案不使用groupby,而是使用.loc
我相信你想要的是当允许和放电日都相同时以及当Num1在5到12之间(包括在内)时将标志设置为'1'
以下是适用于逻辑的代码。
df.loc[(df['admit'] == df['discharge'] ) & (df['Num1'].isin(num1_range)), 'flag'] = 1
df.loc[~((df['admit'] == df['discharge'] ) & (df['Num1'].isin(num1_range))), 'flag'] = 0
print(df)
输出结果为:
Key Num1 Num2 admit discharge flag
0 10003 12 121 2012-05-06 2012-05-08 0.0
1 10003 13 122 2012-05-08 2012-05-10 0.0
2 10003 13 122 2012-10-10 2012-10-12 0.0
3 10003 13 124 2012-10-10 2012-10-16 0.0
4 10003 12 125 2012-10-10 2012-10-23 0.0
5 10003 13 126 2012-11-10 2012-11-11 0.0
6 10034 15 127 2012-05-20 2012-05-20 0.0
7 10034 12 128 2012-05-20 2012-05-20 1.0
您可以看到只有最后一行满足条件且标志设置为“1” 希望这会有所帮助。