我正在使用BS4抓取属性广告,并使用pandas来分析数据。
在我的DataFrame中,行代表属性广告,列代表属性特征,如租金,大小,区域等。
在一些房地产广告中,地区名称拼写错误,甚至完全丢失。我想删除这些属性广告,即我想删除区域拼写错误或遗失的行。
我有一个包含正确地区名称的列表,例如
correct_districts=['North', 'South', 'West', 'East']
我有一个带有a.o的DataFrame city_df
。区列,例如
| District | ....
-----------------
| North | ....
| South | ....
| Nort | ....
| | ....
| West | ....
| .... | ....
关于条件行选择检查this answer,我做了这个,
city_df=city_df.loc[~city_df['District'].isin(correct_districts)]
但是,这不会改变District
列中的任何内容。如果我删除~
并执行命令,我只剩下缺少区名的行。
我应该更改什么才能删除区域名称丢失或拼写错误的行?