我正在组织许多计划的数据,其中包含计划阶段的信息,P(初步)或F(最终)。我正在使用熊猫文档examples中显示的方法。
df1 = pd.read_excel('FilePath', sheetname = 'ForFilter')
df1
landuse_SUB_ID TYPE RECD_DATE PHASE LAND_USE CPACTIONDA
0 24 1 2000-04-07 P ROW 2000-05-04
1 24 1 2000-04-07 P NONE 2000-05-04
2 25 1 2000-08-10 P COMM 2000-09-08
3 34 1 2000-04-14 F REC 2000-04-14
4 34 1 2000-04-14 F SFD 2000-04-14
5 35 1 2000-01-20 P NONE 2000-02-02
6 42 1 2000-04-04 P SFD 2000-05-01
7 42 1 2000-12-06 P SFD 2001-01-03
8 43 1 2000-09-07 P NONE 2000-09-21
9 51 1 2000-11-10 P NONE 2000-11-28
10 53 1 2000-02-22 F SFD 2000-02-22
在使用示例中的方法(使用like
和regex
)之后,在我看来这些方法只能过滤索引列中的值。因此,我更改了索引:
df1_filter1 = df1.set_index('PHASE')
landuse_SUB_ID TYPE RECD_DATE LAND_USE CPACTIONDA
PHASE
P 24 1 2000-04-07 ROW 2000-05-04
P 24 1 2000-04-07 NONE 2000-05-04
P 25 1 2000-08-10 COMM 2000-09-08
F 34 1 2000-04-14 REC 2000-04-14
F 34 1 2000-04-14 SFD 2000-04-14
P 35 1 2000-01-20 NONE 2000-02-02
P 42 1 2000-04-04 SFD 2000-05-01
P 42 1 2000-12-06 SFD 2001-01-03
P 43 1 2000-09-07 NONE 2000-09-21
P 51 1 2000-11-10 NONE 2000-11-28
F 53 1 2000-02-22 SFD 2000-02-22
现在数据帧使用Phase
作为索引,我使用了like
方法来过滤df1_filter1
:
df1_filter1.filter(like = 'F', axis = 0)
我收到错误
“ ValueError:无法从重复的轴重新索引”
对我来说,这似乎是一个非常简单的操作,所以我只是想知道自己做错了什么导致了此错误。对于我的问题,最好的方法(最少的步骤和最干净的代码)应该是什么。
答案 0 :(得分:3)
filter
可能直观上感觉像是正确的功能,但是您几乎可以肯定应该使用loc
来过滤数据(在上面的示例链接上,它以黄色显示为“另请参阅:loc”)框)。对于这个简单的示例,您还可以使用布尔索引:
>>> df1.loc[df1['PHASE'] == 'F'] # or boolean indexing via df1[df1['PHASE'] == 'F']
landuse_SUB_ID TYPE RECD_DATE PHASE LAND_USE CPACTIONDA
3 34 1 2000-04-14 F REC 2000-04-14
4 34 1 2000-04-14 F SFD 2000-04-14
10 53 1 2000-02-22 F SFD 2000-02-22
答案 1 :(得分:1)
正如已经指出的,对于此任务,不需要filter
。在@Alexander's answer中使用loc
。另外,您也可以使用query
:
df1.query('PHASE == "F"')
landuse_SUB_ID TYPE RECD_DATE PHASE LAND_USE CPACTIONDA
3 34 1 2000-04-14 F REC 2000-04-14
4 34 1 2000-04-14 F SFD 2000-04-14
10 53 1 2000-02-22 F SFD 2000-02-22
filter
也适合我:
df1_filter1 = df1.set_index('PHASE')
df1_filter1.filter(like='F', axis=0)
landuse_SUB_ID TYPE RECD_DATE LAND_USE CPACTIONDA
PHASE
F 34 1 2000-04-14 REC 2000-04-14
F 34 1 2000-04-14 SFD 2000-04-14
F 53 1 2000-02-22 SFD 2000-02-22
关于您使用regex
的问题:
df2 = df1.set_index('LAND_USE')
df2.filter(regex="E$", axis=0)
landuse_SUB_ID TYPE RECD_DATE PHASE CPACTIONDA
LAND_USE
NONE 24 1 2000-04-07 P 2000-05-04
NONE 35 1 2000-01-20 P 2000-02-02
NONE 43 1 2000-09-07 P 2000-09-21
NONE 51 1 2000-11-10 P 2000-11-28
此处过滤所有以E
结尾的行。
您可以通过例如在做:
df1[df1['LAND_USE'].str.endswith('E')]
landuse_SUB_ID TYPE RECD_DATE PHASE LAND_USE CPACTIONDA
1 24 1 2000-04-07 P NONE 2000-05-04
5 35 1 2000-01-20 P NONE 2000-02-02
8 43 1 2000-09-07 P NONE 2000-09-21
9 51 1 2000-11-10 P NONE 2000-11-28
此处filter
的问题在于,您随后创建了一个具有非唯一值的索引,这通常是个坏主意。因此,我会选择.loc
或.query
。