我正在处理一个大型数据集(1000万个案例),其中每个案例代表一个特定产品的销售月交易(有17个产品)。因此,每个商店可能代表204个案例(12个月* 17个产品销售;请注意,并非所有商店全年销售所有17个产品)。
我需要重新构建数据,以便每个产品交易都有一个案例。这将导致每个商店只有17个案例。
理想情况下,我希望创建12个月内交易的平均值。
更具体地说,数据集当前有5个变量:
我在R工作。将这个重组数据集保存到数据框中是理想的。
我在想if / for循环可以工作,但我不确定如何让它工作。
非常感谢任何建议或想法。如果您需要更多信息,请询问!
亲切的问候,
[R
答案 0 :(得分:1)
这里真的没什么用,但这就是我的解释所导致的......你想要总结你的数据集,按shop_location和product_type
分组# install.packages('dplyr')
library(dplyr)
your_data_set <- xxx
your_data_set %>%
group_by(shop_location, product_type) %>%
summarise(profit = sum(total_profit),
count = n(),
avg_profit = profit/count)