我是Python的新手,它试图让我了解如何操纵Pandas数据帧。我正在使用winemag-data-130k-v2.csv数据集。 感兴趣的领域是“国家”,“省”,“酒庄”,“品种”。
我想做的第一件事是确定每个省的酿酒厂数量。
我可以做到
reviews_df.groupby(['country','province']).size()
但这给了我行数。 (因此,如果一个酒庄生产3个品种,则为3个)。
但是我想要SQL中的count(distinct winery)
之类的东西。
有建议吗?