有效采样和平均R中行的特定子集的方法

时间:2018-11-25 20:19:36

标签: r dataframe

对此进行了思考和阅读。

  • 具有大约8x10 ^ 6行的数据框
  • 我感兴趣的大约40个类别
  • 我正在尝试两件事(为将它们一起发布而道歉,但它们似乎密切相关)
  • 首先,我正在寻找一种有效的方法来从每个类别中随机采样100行,即var1(范围从01到40)
  • 理想情况下,我将创建一个具有约400行(而不是800万行)的新数据框
  • 第二,我希望能够获取每个var1(等于类别)的所有var2和var3值的平均值。

也许这些与方法有关。

我的数据框看起来像这样(过于简化)

              var1     var2     var3     var3
1             01       949.47   ..       ..
2             01       935.09   ..       ..
3             01       935.01   ..       ..
4             01       355.39   ..       ..
5             01       455.07   ..       ..
6             01       525.08   ..       ..
..
250000        02       485.82   ..       ..
250001        02       204.14   ..       ..
250002        02       388.22   ..       ..
..

我曾尝试在for循环中拆分数据帧,但这并没有成功(永远不会结束,我需要终止该过程)。

for (i in 1:8000000){
   out <- split(dat, f = dat$var1)
}

此外,我不确定下一步该怎么做,如何管理所有单独的数据帧以及这是否是最佳方法。

非常感谢您提供任何提示!

0 个答案:

没有答案