我有一个数据集,其中包含平均利润和每个数据点的样本数量,没有更多信息。
我想比较数据点并决定重点关注哪个数据点。但是,我不确定如何考虑样本量。作为简化示例,我在下面编写了python代码。
import matplotlib.pyplot as plt; plt.rcdefaults()
import numpy as np
objects = ('A', 'B', 'C', 'D')
y_pos = np.arange(len(objects))
sample_sizes = [10,5,20,15]
sample_avgProfit = [12,14,2,4]
weighted_mean = 0
for i in range (len(sample_sizes)):
weighted_mean += sample_sizes[i]/sum(sample_sizes)*sample_avgProfit[i]
weighted_proportion = []
weighted_sum = sum([a*b for (a,b) in zip(sample_sizes,sample_avgProfit)])
for i in range (len(sample_sizes)):
weighted_proportion.append(sample_sizes[i]*sample_avgProfit[i]/weighted_sum)
plt.bar(y_pos, sample_avgProfit, align='center', alpha=0.5)
plt.xticks(y_pos, objects)
plt.title('avg profit')
plt.show()
plt.bar(y_pos, weighted_proportion, align='center', alpha=0.5)
plt.xticks(y_pos, objects)
plt.title('weighted proportion')
plt.show()
您会看到B
的平均利润较高,但是由于其样本量较小,因此当我考虑加权总和和平均值时,A
会显示更高的比例权重< / strong>(顺便说一句,这是我计算出的值的正确术语吗?)
所以我的问题是:
A
的加权比例可能较高,但是B
的平均价格仍然较高。在这种情况下做出决定的正确方法是什么?