这是第一次发帖提问,所以我会尝试举一些例子,但我可能不会完全了解最佳方法。


我正在使用groupby()函数根据池化变量划分DataFrame。我的目的是从SubDataframes创建一个新的,其中用groupby()分割的行成为2个单独的列。例如,我在DataFrame A中有:meanX和:在数据帧B中的处理,我想要:meanX_Treatment1和:meanX_Treatment2。


现在我找到了一种方法来为这个pourpose使用join(),但是有许多其他变量要阻止我需要重复几次操作,我需要知道如何许多SubDataFrames创建了groupby()的初始调用。结果是变量所以我不能简单地读它我需要将它存储在变量中,这就是我尝试使用size(:: DataFrames.GroupedDataFrame)的原因。


是有解决方案吗?

答案 0 :(得分:0)
要获取GroupedDataFrame中的组数,请使用length
方法。例如:
using DataFrames
df = DataFrame(x=repeat(1:4,inner=2,outer=2),y='a':'p')
grouped = groupby(df,:x)
num_of_groups = length(grouped) # returns 4
# to do something with each group `for g in grouped ... end` is useful
如评论中所述,您可能还会考虑使用Query.jl(请参阅http://www.david-anthoff.com/Query.jl/stable中的文档)来查询问题的数据。