我有一个多索引数据,我想在其中过滤掉特定日期的列表,例如:
date_list=[Timestamp('2018-05-19 00:00:00'),
Timestamp('2018-06-24 00:00:00'),
Timestamp('2014-11-12 00:00:00'),
Timestamp('2015-11-11 00:00:00'),
Timestamp('2012-05-28 00:00:00'),
Timestamp('2012-06-23 00:00:00')]
我尝试通过以下方法过滤掉这些日期,但它不起作用:
df.iloc[df.index.get_level_values('Date') != date_list]
任何人都可以帮忙。
答案 0 :(得分:0)
将Index.isin
与~
的布尔布尔掩码一起使用,iloc
应该被删除,因为被boolean indexing
过滤:
通知:
在过滤前检查是否DatetimeIndex
:
print (df.index.get_level_values('Date'))
df1 = df[~df.index.get_level_values('Date').isin(date_list)]
另一个drop
和参数level
和errors
的解决方案:
df1 = df.drop(date_list, level='Date', errors='ignore')
示例:
df = pd.DataFrame({'Date':['2018-05-19','2014-11-10','2018-06-24','2014-11-13'],
'ID':[1,1,2,2],
'Val':list('abcd')})
df['Date'] = pd.to_datetime(df['Date'])
df = df.set_index(['Date','ID'])
print (df)
Val
Date ID
2018-05-19 1 a
2014-11-10 1 b
2018-06-24 2 c
2014-11-13 2 d
date_list=[pd.Timestamp('2018-05-19 00:00:00'),
pd.Timestamp('2018-06-24 00:00:00'),
pd.Timestamp('2014-11-12 00:00:00'),
pd.Timestamp('2015-11-11 00:00:00'),
pd.Timestamp('2012-05-28 00:00:00'),
pd.Timestamp('2012-06-23 00:00:00')]
print (df.index.get_level_values('Date'))
DatetimeIndex(['2018-05-19', '2014-11-10', '2018-06-24', '2014-11-13'],
dtype='datetime64[ns]', name='Date', freq=None)
df1 = df[~df.index.get_level_values('Date').isin(date_list)]
print (df1)
Val
Date ID
2014-11-10 1 b
2014-11-13 2 d
df1 = df.drop(date_list, level='Date', errors='ignore')
print (df1)
Val
Date ID
2014-11-10 1 b
2014-11-13 2 d