我有一个这样的数据框
Company_id year dummy_1 dummy_2 dummy_3 dummy_4 dummy_5
1 1990 1 0 1 1 1
1 1991 0 0 1 1 0
1 1992 0 0 1 1 0
1 1993 1 0 1 1 0
1 1994 0 1 1 1 0
1 1995 0 0 1 1 0
1 1996 0 0 1 1 1
我需要最后5列作为向量,然后将其附加到原始数据帧中。我知道我可以切片列并创建一个矩阵,例如:
df.as_matrix(columns=[df[-5:]])
这是我想要的结果输出:
Company_id year dummy_1 dummy_2 dummy_3 dummy_4 dummy_5 vector
1 1990 1 0 1 1 1 [1, 0, 1, 1, 1]
1 1991 0 0 1 1 0 [0, 0, 1, 1, 0]
1 1992 0 0 1 1 0 [0, 0, 1, 1, 0]
1 1993 1 0 1 1 0 [1, 0, 1, 1, 0]
1 1994 0 1 1 1 0 [0, 1, 1, 1, 0]
1 1995 0 0 1 1 0 [0, 0, 1, 1, 0]
1 1996 0 0 1 1 1 [0, 0, 1, 1, 1]
但是如何将它作为数组添加到原始数据集中?
答案 0 :(得分:2)
我认为需要通过iloc
和assign
新列选择最后一列,并将其转换为numpy数组和列表:
df = df.assign(new = df.iloc[:, -5:].values.tolist())
print (df)
Company_id year dummy_1 dummy_2 dummy_3 dummy_4 dummy_5 \
0 1 1990 1 0 1 1 1
1 1 1991 0 0 1 1 0
2 1 1992 0 0 1 1 0
3 1 1993 1 0 1 1 0
4 1 1994 0 1 1 1 0
5 1 1995 0 0 1 1 0
6 1 1996 0 0 1 1 1
new
0 [1, 0, 1, 1, 1]
1 [0, 0, 1, 1, 0]
2 [0, 0, 1, 1, 0]
3 [1, 0, 1, 1, 0]
4 [0, 1, 1, 1, 0]
5 [0, 0, 1, 1, 0]
6 [0, 0, 1, 1, 1]