Question

我正在处理一个大型数据集（1000万个案例），其中每个案例代表一个特定产品的销售月交易（有17个产品）。因此，每个商店可能代表204个案例（12个月* 17个产品销售;请注意，并非所有商店全年销售所有17个产品）。

我需要重新构建数据，以便每个产品交易都有一个案例。这将导致每个商店只有17个案例。

理想情况下，我希望创建12个月内交易的平均值。

更具体地说，数据集当前有5个变量：

商店位置 - 唯一的6位数序列
月 - 2013_MM（数据仅来自2013年）
销售单位总利润（£）
产品类型 - 17种不同的产品类型（这是一个字符串变量）

我在R工作。将这个重组数据集保存到数据框中是理想的。

我在想if / for循环可以工作，但我不确定如何让它工作。

非常感谢任何建议或想法。如果您需要更多信息，请询问！

亲切的问候，

[R

Answer 1

这里真的没什么用，但这就是我的解释所导致的......你想要总结你的数据集，按shop_location和product_type

分组

# install.packages('dplyr')
library(dplyr)

your_data_set <- xxx

your_data_set %>%
  group_by(shop_location, product_type) %>%
  summarise(profit = sum(total_profit),
            count = n(),
            avg_profit = profit/count)

基于R中的时间戳和唯一ID重构数据

1 个答案: