我有一个名为wine的数据框,其中包含一堆我需要删除的行。
我如何删除“国家”列中少于全部1%的所有行?
以下是比例:
#proportion of wine countries in the data set
wine.country.value_counts() / len(wine.country)
US 0.382384
France 0.153514
Italy 0.100118
Spain 0.070780
Portugal 0.062186
Chile 0.056742
Argentina 0.042835
Austria 0.034767
Germany 0.028928
Australia 0.021434
South Africa 0.010233
New Zealand 0.009069
Israel 0.006133
Greece 0.004493
Canada 0.002526
Hungary 0.001755
Romania 0.001558
... 我很懒,没有包含所有结果,但是我想你能理解我的意思。我需要删除比例小于.01的所有行
这是我数据框的开头:
country designation points price province taster_name variety year price_category
Portugal Avidagos 87 15.0 Douro Roger Voss Portuguese Red 2011.0 low
答案 0 :(得分:0)
您可以使用以下内容:
df = df[df.proportion >= .01]
从该数据集中,它应该给你这样的东西:
US 0.382384
France 0.153514
Italy 0.100118
Spain 0.070780
Portugal 0.062186
Chile 0.056742
Argentina 0.042835
Austria 0.034767
Germany 0.028928
Australia 0.021434
South Africa 0.010233