如何通过两列pandas dataframe进行分组和映射

时间:2017-12-20 19:45:15

标签: python pandas pandas-groupby sklearn-pandas

我在使用pandas数据帧的python上遇到问题我试图让机器学习模型在表面上进行预测。我在列车数据框中有表面列,而我在测试数据框中没有它。所以,我会根据火车表面创建一些功能。

train['error_cat1'] = abs(train.groupby(train['cat1'])['surface'].transform('mean')  - train.surface.mean())

在这里,我已经通过" cat"设置了grouby的值。具有表面均值的特征。凉爽

现在我必须将它添加到测试中。因此,将使用此方法将列车中每个组的值映射到测试行。

mp = {k: g['error_cat1'].tolist()[0] for k,g in train.groupby('cat1')}
test['error_cat1'] = test['cat1'].map(mp)

所以,远没有问题。现在,我将在groupby中使用两列。

train['error_cat1_cat2'] = abs(train.groupby(train[['cat1','cat2']])['surface'].transform('mean')  - train.surface.mean())

但我不知道如何将其映射为测试数据帧。请你能帮我解决这个问题,或者给我一些其他的方法让我能做到。

由于

例如我的火车是

+------+------+-------+
| Cat1 | Cat2 | surface |
+------+------+-------+
| 1    | 3    | 10    |
+------+------+-------+
| 2    | 2    | 12    |
+------+------+-------+
| 3    | 1    | 12    |
+------+------+-------+
| 1    | 3    | 5     |
+------+------+-------+
| 2    | 2    | 10    |
+------+------+-------+
| 3    | 2    | 13    |
+------+------+-------+

我的测试是

+------+------+
| Cat1 | Cat2 |
+------+------+
| 1    | 2    |
+------+------+
| 2    | 1    |
+------+------+
| 3    | 1    |
+------+------+
| 1    | 3    |
+------+------+
| 2    | 3    |
+------+------+
| 3    | 1    |
+------+------+

现在我会在cat1和cat2上做一个groupby mean surface,例如(cat1,cat2)=(1,3)上的平均曲面是(10 + 5)/ 2 = 7.5

现在,我必须进行测试并将此值映射到(cat1,cat2)=(1,3)行。

我希望你有我。

1 个答案:

答案 0 :(得分:1)

您可以使用

  • groupby().means()计算方法
  • reset_index()将索引Cat1Cat2再次转换为列
  • merge(how='left', )加入两个数据框,例如数据库中的表格(LEFT JOIN中的SQL)。

headers = ['Cat1', 'Cat2', 'surface']

train_data = [
    [1, 3, 10],
    [2, 2, 12],
    [3, 1, 12],
    [1, 3, 5],
    [2, 2, 10],
    [3, 2, 13],
]

test_data = [
    [1, 2],
    [2, 1],
    [3, 1],
    [1, 3],
    [2, 3],
    [3, 1],
]
import pandas as pd

train = pd.DataFrame(train_data, columns=headers)
test = pd.DataFrame(test_data, columns=headers[:-1])

print('--- train ---')
print(train)

print('--- test ---')
print(test)

print('--- means ---')
means = train.groupby(['Cat1', 'Cat2']).mean()
print(means)

print('--- means (dataframe) ---')
means = means.reset_index(level=['Cat1', 'Cat2'])
print(means)

print('--- result ----')
result = pd.merge(df2, means, on=['Cat1', 'Cat2'], how='left')
print(result)

print('--- result (fillna)---')
result = result.fillna(0)
print(result)

结果:

--- train ---
   Cat1  Cat2  surface
0     1     3       10
1     2     2       12
2     3     1       12
3     1     3        5
4     2     2       10
5     3     2       13
--- test ---
   Cat1  Cat2
0     1     2
1     2     1
2     3     1
3     1     3
4     2     3
5     3     1
--- means ---
           surface
Cat1 Cat2         
1    3         7.5
2    2        11.0
3    1        12.0
     2        13.0
--- means (dataframe) ---
   Cat1  Cat2  surface
0     1     3      7.5
1     2     2     11.0
2     3     1     12.0
3     3     2     13.0
--- result ----
   Cat1  Cat2  surface
0     1     2      NaN
1     2     1      NaN
2     3     1     12.0
3     1     3      7.5
4     2     3      NaN
5     3     1     12.0
--- result (fillna)---
   Cat1  Cat2  surface
0     1     2      0.0
1     2     1      0.0
2     3     1     12.0
3     1     3      7.5
4     2     3      0.0
5     3     1     12.0