我有一个包含10个cols和大约700K行的data.frame 我想使用pairs(data.frame)函数来显示列值的成对散点图。没有必要(或可行)在每个图中绘制所有700K行,因此我想选择要绘制的2或3K(一些小数量)行的随机子集。
有人可以协助我选择我的数据框的一个小的随机子集。我认为要么
我知道我已经看到了这个,但无法找到代码片段....
感谢
答案 0 :(得分:3)
重要的问题是:行的随机子集是否会准确描述整个数据集? 在我们理解您的数据代表什么(时间序列与随机样本或其他内容)之前,很难就正确的绘图子集提供适当的建议。
您是否会更好,例如,通过splinefun
为每列创建一个函数,并生成从最小到最大的均匀间距的拟合数据图?
答案 1 :(得分:1)
这样的事情会起作用吗?
a <- sample(1:700000,10) # option 1
a <- seq(1, 700000, by = 200) # option 2
然后可以获得子集 -
randomssubset <- df[a,]