我有一个pandas数据帧(称之为数据),其分类和连续值如下所示:
INDEX AGE SEX INCOME COUNTRY INSTANCE_WEIGHT
1 25 M 30000 USA 120
2 53 F 42000 FR 95
3 37 F 22000 USA 140
4 18 M 0 FR 110
.
.
.
15000 29 F 39000 USA 200
实例权重表示由于分层抽样,每个记录所代表的人口数量。
我想要做的是将每个变量的分布绘制成直方图。问题是我不能只绘制当前数据帧的直方图,因为它不代表实际分布。为了具有代表性,我必须在绘制它之前将每一行乘以其intance_weight。这个问题听起来很容易,但我无法找到一个很好的方法。
解决方案是复制每一行instance_weight
次,但实际数据帧为300k行,instance_weight
约为1000。
这是我现在的代码,用于绘制每列的直方图。
fig = plt.figure(figsize=(20,70))
cols = 4
rows = ceil(float(data.shape[1]) / cols)
for i, column in enumerate(data.drop(["instance_weight","index"], axis=1).columns):
ax = fig.add_subplot(rows, cols, i + 1)
ax.set_title(column)
# Check if data categorical or not
if data.dtypes[column] == np.object:
data[column].value_counts().plot(kind="bar", axes=ax,
alpha=0.8, color=sns.color_palette(n_colors=1))
else:
data[column].hist(axes=ax, alpha=0.8)
plt.xticks(rotation="vertical")
plt.subplots_adjust(hspace=1, wspace=0.2)
现在如何考虑体重?
答案 0 :(得分:1)
您应该使用matplotlib 'hist' function的'weights'参数,该参数也可以通过pandas 'plot' function使用。
在您的示例中,要按权重变量“ INSTANCE_WEIGHT”绘制变量“ AGE”的分布,您应该这样做:
df["AGE"].plot(kind="hist", weights=df["INSTANCE_WEIGHT"])