基于R中的时间戳和唯一ID重构数据

时间:2015-01-22 14:29:04

标签: r dataframe structure

我正在处理一个大型数据集(1000万个案例),其中每个案例代表一个特定产品的销售月交易(有17个产品)。因此,每个商店可能代表204个案例(12个月* 17个产品销售;请注意,并非所有商店全年销售所有17个产品)。

我需要重新构建数据,以便每个产品交易都有一个案例。这将导致每个商店只有17个案例。

理想情况下,我希望创建12个月内交易的平均值。

更具体地说,数据集当前有5个变量:

  • 商店位置 - 唯一的6位数序列
  • 月 - 2013_MM(数据仅来自2013年)
  • 销售单位总利润(£)
  • 产品类型 - 17种不同的产品类型(这是一个字符串 变量)

我在R工作。将这个重组数据集保存到数据框中是理想的。

我在想if / for循环可以工作,但我不确定如何让它工作。

非常感谢任何建议或想法。如果您需要更多信息,请询问!

亲切的问候,

[R

1 个答案:

答案 0 :(得分:1)

这里真的没什么用,但这就是我的解释所导致的......你想要总结你的数据集,按shop_location和product_type

分组
# install.packages('dplyr')
library(dplyr)

your_data_set <- xxx

your_data_set %>%
  group_by(shop_location, product_type) %>%
  summarise(profit = sum(total_profit),
            count = n(),
            avg_profit = profit/count)