我有一个包含15条记录的csv文件,其中包含类别/子类别。
列:Main_category,Sub_category,Count
期望的结果:类别,Sub_cat1,50
我尝试使用Python pandas并得到了上述结果:
test = pd.DataFrame(df.groupby(['Main_category','Sub_category']['Sub_category'].count())
我正在尝试使用R中的sqldf来实现相同的目标,但是不能获得类别的每个子类别的计数。它只显示总计数:
sqldf("select Main_category, Sub_category, count(*) from MyData group by Main_category")
答案 0 :(得分:2)
如果我看一下纯粹的SQL查询,看起来你必须按两个聚合维度Main_category
和Sub_category
进行分组,以便SQL查询甚至可以用大多数SQL语言编译:
sqldf("select Main_category, Sub_category, count(*) from MyData group by Main_category, Sub_category")