Question

假设我们有一个包含总体的原始数据集，并且我们有一个合并的数据集，其中包含与另一个数据集合并后的总体（因此观察次数较少）。

library(tidyverse)
set.seed(0)

population_data <- data.frame(ID = c(1:100),
                     industry = sample(1:10, 100, replace = T),
                     size = log1p(runif(100, 1e+03, 1e+08)),
                     performance = runif(100, -0.10, 0.10))

merged_data <- population_data[sample(nrow(population_data), 50), ]

从这个'合并'数据集中，我想根据原始人口数据集的某些特征（例如，行业级别）采取一个满意的随机样本。

population_characteristics <- population_data %>% 
  group_by(industry) %>% 
  summarize(avg_industry_size = n() / nrow(population_data),
            avg_size = mean(size, na.rm = T),
            avg_performance = mean(performance, na.rm = T))

对于'merged_data'对象的20个观察样本，最简单的方法是什么，以便在按行业再次分组后，这个新样本的特征与'population_characteristics'中的特征尽可能匹配？< / p>

合并后R中的分层随机抽样

0 个答案: