使用python归类分类数据

时间:2018-12-21 11:27:13

标签: python dataframe machine-learning

是否可以用此值所属的分类类型的平均值来估算缺失值。例如,如果我有50种独特的产品,它们可以创建1000个样本,其中一个特征就是重量。我可以用产品“ a”的权重平均值估算产品“ a”的重量,而用产品“ c”的权重平均值估算产品“ c”的重量吗?

1 个答案:

答案 0 :(得分:0)

如果您使用的是熊猫,可以尝试如下操作:

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "category": ["a", "a", "a", "a", "b", "b", "b", "b"],
    "weight": [1.0, 1.0, np.nan, 2.0, np.nan, 3.0, 3.0, 3.0]
})
print df

df["weight"].fillna(df.groupby("category")["weight"].transform("median"), inplace=True)
print df

原始数据框:

  category  weight
0        a     1.0
1        a     1.0
2        a     NaN
3        a     2.0
4        b     NaN
5        b     3.0
6        b     3.0
7        b     3.0

结果:

  category  weight
0        a     1.0
1        a     1.0
2        a     1.0
3        a     2.0
4        b     3.0
5        b     3.0
6        b     3.0
7        b     3.0