我有一个由近700万个观测值组成的数据集,我想随机抽取一些数据来分析一个子集。我知道如何随机抽取数据:
index <- sample(7009728, 50000)
flights <- flight[index, ]
有没有办法随机取样但是一旦在我的数据集中创建,总是给我相同的随机样本?我希望这样做而不必依赖于保存我的R项目。
答案 0 :(得分:2)
只需在创建索引之前使用set.seed
:
> set.seed(1)
> index <- sample(7009728, 50000)
> head(index)
[1] 1861144 2608487 4015546 6366287 1413735 6297463
设置随机数生成器种子并确保一致的结果。