我有一个像这样的pandas数据框:
Column1 Column2 Column3 Column4 Column5
0 a 1 2 3 4
1 a 3 4 5
2 b 6 7 8
3 c 7 7
我现在要做的是获取包含Column1和新columnA的新数据框。此columnA应包含第2列中的所有值 - (到)n(其中n是从Column2到行尾的列数),如下所示:
Column1 ColumnA
0 a 1,2,3,4
1 a 3,4,5
2 b 6,7,8
3 c 7,7
我怎样才能最好地解决这个问题?任何意见将是有益的。提前谢谢!
答案 0 :(得分:41)
您可以按行apply
传递axis=1
到apply
,然后将dtype转换为str
和join
:
In [153]:
df['ColumnA'] = df[df.columns[1:]].apply(
lambda x: ','.join(x.dropna().astype(int).astype(str)),
axis=1
)
df
Out[153]:
Column1 Column2 Column3 Column4 Column5 ColumnA
0 a 1 2 3 4 1,2,3,4
1 a 3 4 5 NaN 3,4,5
2 b 6 7 8 NaN 6,7,8
3 c 7 7 NaN NaN 7,7
我在这里打电话给dropna
以摆脱NaN
,但是我们需要再次投射到int
,所以我们最终不会将浮点数作为str。
答案 1 :(得分:4)
我建议使用.assign
df2 = df.assign(ColumnA = df.Column2.astype(str) + ', ' + df.Column3.astype(str) + ', ' df.Column4.astype(str) + ', ' df.Column4.astype(str) + ', ' df.Column5.astype(str))
它很简单,可能很长但是对我有用
答案 2 :(得分:1)
如果您有很多列,请说-数据框中有1000列,并且您想基于particular column name
合并几个列,例如-有问题的Column2
和任意号。该列之后的列数(例如,在'Column2
之后3列,包括OP要求的Column2
)。
我们可以使用.get_loc()
-按here来获取列的位置
source_col_loc = df.columns.get_loc('Column2') # column position starts from 0
df['ColumnA'] = df.iloc[:,source_col_loc+1:source_col_loc+4].apply(
lambda x: ",".join(x.astype(str)), axis=1)
df
Column1 Column2 Column3 Column4 Column5 ColumnA
0 a 1 2 3 4 1,2,3,4
1 a 3 4 5 NaN 3,4,5
2 b 6 7 8 NaN 6,7,8
3 c 7 7 NaN NaN 7,7
希望有帮助!