Question

我有一个像这样的数据框

df = pd.DataFrame([[1, '02', 3], [2, '01', 5], [3, '03', 8], [4, '04', 1]], columns=['Student', 'activityCode', 'pts'])

    Student activityCode    pts
0   1   02  3
1   2   01  5
2   3   03  8
3   4   04  1

我想将 activityCode 映射到一个 activityName 并创建一个表，其中 pts 在学生和 activityCode 级别聚合。但棘手的是 02 对应于 swimming and football。映射表：

<头>

activityCode	activityName
01	游泳
02	游泳和足球
03	运行
04	足球

我希望输出是

    Student activityName    pts
0   1   Swimming    3
1   1   Football    3
2   2   Swimming    5
3   3   Running     8
4   4   Football    1

我试过了

df['activityCode'].map({'01': 'Swimming', '02':['Swimming', 'Football'], '03':'Running', '04':'Football'}) 但很明显，我在 activityName 列中得到了一行 ['Swimming', 'Football']，而不是两行。

0    [Swimming, Football]
1                Swimming
2                 Running
3                Football

我应该如何编写代码来映射 activityCode，以便它创建两行具有不同的 activityName 但在 02 的所有其他列中都相同？感谢您的时间！

Answer 1

您只需要分解 activityName 列。

df['activityName'] = df['activityCode'].map({'01': 'Swimming', '02':['Swimming', 'Football'], '03':'Running', '04':'Football'})
df.explode('activityName')

这将返回一个 DataFrame，其中对于 activityName 中的任何列表单元格，将有与该列表中的元素一样多的行，每个元素一个，其他行中的值与它们在原始行中的值相同。对于 activityName 值不是列表的任何行，它们将按原样存在于新 DataFrame 中。

熊猫将一个键映射到多个值

1 个答案: