如何获取数据帧行的随机子集

时间:2013-11-08 14:44:47

标签: r

我有一个包含10个cols和大约700K行的data.frame 我想使用pairs(data.frame)函数来显示列值的成对散点图。没有必要(或可行)在每个图中绘制所有700K行,因此我想选择要绘制的2或3K(一些小数量)行的随机子集。

有人可以协助我选择我的数据框的一个小的随机子集。我认为要么

  1. data.frame或
  2. 的X%的随机子集
  3. 每个第N行都能正常工作。

    我知道我已经看到了这个,但无法找到代码片段....

  4. 感谢

2 个答案:

答案 0 :(得分:3)

重要的问题是:行的随机子集是否会准确描述整个数据集? 在我们理解您的数据代表什么(时间序列与随机样本或其他内容)之前,很难就正确的绘图子集提供适当的建议。

您是否会更好,例如,通过splinefun为每列创建一个函数,并生成从最小到最大的均匀间距的拟合数据图?

答案 1 :(得分:1)

这样的事情会起作用吗?

a <- sample(1:700000,10) # option 1
a <- seq(1, 700000, by = 200) # option 2

然后可以获得子集 -

randomssubset <- df[a,]