假设我有一个(90,000 x 17)
的数据集,即(n x p)
,其中n
是number of observations
,而p
是number of variables
,我想从我的整个数据集中随机抽取20%
行的样本,如何在R中完成?
抽取随机样本后,我将相应地进行聚类分析。
我曾尝试使用其他问题来回答我的问题,但它们并没有定论,因为它不能满足我的需求。
答案 0 :(得分:6)
您可以使用sample_frac
中的dplyr
进行此操作,这是一个有关数据库鸢尾花的示例
library(dplyr)
#data(iris)
sample20 <- iris %>% sample_frac(0.2)