合并后R中的分层随机抽样

时间:2017-09-13 13:24:25

标签: r random merge sampling

假设我们有一个包含总体的原始数据集,并且我们有一个合并的数据集,其中包含与另一个数据集合并后的总体(因此观察次数较少)。

library(tidyverse)
set.seed(0)

population_data <- data.frame(ID = c(1:100),
                     industry = sample(1:10, 100, replace = T),
                     size = log1p(runif(100, 1e+03, 1e+08)),
                     performance = runif(100, -0.10, 0.10))

merged_data <- population_data[sample(nrow(population_data), 50), ]

从这个'合并'数据集中,我想根据原始人口数据集的某些特征(例如,行业级别)采取一个满意的随机样本。

population_characteristics <- population_data %>% 
  group_by(industry) %>% 
  summarize(avg_industry_size = n() / nrow(population_data),
            avg_size = mean(size, na.rm = T),
            avg_performance = mean(performance, na.rm = T))

对于'merged_data'对象的20个观察样本,最简单的方法是什么,以便在按行业再次分组后,这个新样本的特征与'population_characteristics'中的特征尽可能匹配?< / p>

0 个答案:

没有答案