我有一个过程A,它每天从系统B中捕获86400个样本点。我正在重复过程A 23天。 23天后,我有23个平均值和23个标准差(sd)值。我试图为整个过程提供正态分布。为了构建正态分布,我需要代表性的均值和标准偏差值。对于代表性的平均值,我可以取所有23个均值的平均值,但我不确定23个标准差的代表是什么。
将所有标准偏差值的平均值视为整个过程的代表性标准偏差是否正确?
所有86400个样本点都是0到20之间的随机数。
答案 0 :(得分:0)
目前还不清楚“试图为整个过程提供正态分布”是什么意思,但我希望这会有所帮助:
你有一个列表意味着,为了获得代表性的意思,你通过取其平均值来做正确的事。要获得标准偏差的代表,请采用您计算的23个均值,并将它们的标准偏差作为数据集。下面是一些R代码,希望您能翻译以满足您的需求。
data <- processA_runFor23Days()
daily_means <- getMeanForEachDay(data) #this should be a vector of length 23
sd(daily_means)
“daily_means”是每天的工具。我认为这应该没问题,因为每天都有相同数量的数据点。
编辑: 为了更清楚,让我们说你有23天的每一天的手段
> daily_means
[1] 0.59073346 0.66107694 0.32187724 0.60259824 0.92803502 0.82414235
[7] 0.21125403 0.61161841 0.48346220 0.86058580 0.87253787 0.94609922
[13] 0.40849556 0.96766218 0.49403126 0.38261995 0.02554012 0.19892710
[19] 0.55517159 0.71836176 0.53599262 0.67525105 0.25059165
忽略每天的标准偏差,它们不再重要。您的新分发现在是每天的手段。因此,取这23个数字的均值和标准差。
> mean(daily_means)
[1] 0.5707246
> sd(daily_means)
[1] 0.2624342