import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
sns.set()
population = 10000
repeat = 400
samplesize_list = [[10, 15, 25], [20, 30, 50], [30, 45, 75]]
label_list = ['50', '100', '150']
std_list = [500, 600, 700]
mean_list = [2000, 3000, 4000]
repeat_median = np.empty(repeat, dtype = float)
for j in range(len(samplesize_list)):
size = samplesize_list[j]
for i in range(repeat):
sample_data = np.random.normal(mean_list[i], std_list[i], size)
repeat.median[I] = np.median(sample_data)
plt.subplot(len(samplesize_list), 1, j+1)
sns.distplot(repeat_median, color = 'blue', label = label_list[j])
plt.legend(loc = "upper right")
plt.show()
需要有关重复随机抽样的问题的帮助!考虑一个人口规模为10,000人的3个年龄段:“ 1-10”年龄段为2000人,“ 11-20”年龄段为3000人,“ 21-30”年龄段为5000人,每个年龄段的分布情况如下:“ 1岁年龄段” -10':平均值= 2000,标准差= 500,年龄“ 11-20”:平均值= 3000,标准差= 600,年龄“ 21-30”:平均值= 4000,标准差=700。
目标:从总体中重复进行大小分别为50、100和150的随机抽样,并找到样本中位数月薪的抽样分布。说明:用400个重复的随机抽样结果进行处理,并可视化模拟的抽样分布。 注意:每个样本中的年龄组成必须与总体中的年龄组成成比例,例如:样本数量为50,否。 “ 1-10”年龄段的人群必须为2000/10000 * 50 = 10我似乎无法获得答案,不确定我哪里出错了!
我应该得到的:
3张图-size50、100、150分别考虑了每种样本大小的年龄组成,分别显示了每种样本大小中样本中位数的样本分布。