我有一个标记为merge的数据集,它有几个不同的标题,两个主要标题是idnumber1和idnumber2,例如:
idnumber 1 idnumber2 agegroup gender
234700 46016 15 1
234700 46014 15 1
223914 46016 15 1
223914 46014 15 1
227296 46016 15 1
227296 46014 15 1
224170 46016 15 1
224170 46014 15 1
233531 46016 15 1
233531 46014 15 1
我有超过800000条数据记录和更多变量,这就是我要做的事情: - 计算数据集N
中的行数答案 0 :(得分:0)
据我所知,你试图在idnumber1
中为每一个值随机保留一行。这可以通过split-apply-combine完成:
set.seed(144)
do.call(rbind, lapply(split(dat, dat$idnumber1),
function(x) x[sample(nrow(x), 1),]))
# idnumber1 idnumber2 agegroup gender
# 223914 223914 46016 15 1
# 224170 224170 46014 15 1
# 227296 227296 46014 15 1
# 233531 233531 46014 15 1
# 234700 234700 46016 15 1