假设我们有一个包含总体的原始数据集,并且我们有一个合并的数据集,其中包含与另一个数据集合并后的总体(因此观察次数较少)。
library(tidyverse)
set.seed(0)
population_data <- data.frame(ID = c(1:100),
industry = sample(1:10, 100, replace = T),
size = log1p(runif(100, 1e+03, 1e+08)),
performance = runif(100, -0.10, 0.10))
merged_data <- population_data[sample(nrow(population_data), 50), ]
从这个'合并'数据集中,我想根据原始人口数据集的某些特征(例如,行业级别)采取一个满意的随机样本。
population_characteristics <- population_data %>%
group_by(industry) %>%
summarize(avg_industry_size = n() / nrow(population_data),
avg_size = mean(size, na.rm = T),
avg_performance = mean(performance, na.rm = T))
对于'merged_data'对象的20个观察样本,最简单的方法是什么,以便在按行业再次分组后,这个新样本的特征与'population_characteristics'中的特征尽可能匹配?< / p>