合并熊猫中的列以创建新列

时间:2019-10-15 00:41:58

标签: python-3.x pandas dataframe feature-engineering

您好,我正在研究pandas数据框,我想创建一个将多个列组合起来并对其应用条件的列,我正在寻找一种做到这一点的聪明方法。

假设数据框看起来像

A   B   C   D
1   0   0   0
0   1   0   0
0   0   1   0
1   0   1   0
1   1   1   0
0   0   1   1

我的输出列应该如下

A   B   C   D   Output_col
1   0   0   0   A
0   1   0   0   B
0   0   1   0   C
1   0   1   0   A_C
1   1   1   0   A_B_C
0   0   1   1   C_D

我当然可以使用下面的代码来实现这一点,但是我必须对每一列都做到这一点。

test['Output_col'] = test.A.apply(lambda x: A if x > 0 else 0)

我想知道是否存在一种方法,如果我有很多列,那么可以不应用每一列而实现此目标。

谢谢!

3 个答案:

答案 0 :(得分:5)

使用DataFrame.apply + join。 使用x.index请注意,使用axis = 1 )+ boolean indexingSeries.eq来过滤选定的列:

test['Output_col']=test.apply(lambda x: '_'.join(x.index[x.eq(1)]),axis=1)
print(test)

   A  B  C  D Output_col
0  1  0  0  0          A
1  0  1  0  0          B
2  0  0  1  0          C
3  1  0  1  0        A_C
4  1  1  1  0      A_B_C
5  0  0  1  1        C_D

仅应用列列表:

my_list_columns=['enter element of your list']
test['Output_col']=test[my_list_columns].apply(lambda x: '_'.join(x.index[x.eq(1)]),axis=1)
print(test)

所有列的大小写为0

my_list_columns=['A','B','C','D']
df['Output_col']=df[my_list_columns].apply(lambda x: '_'.join(x.index[x.eq(1)])  if x.eq(1).any() else 'no_value',axis=1)
print(df)

   A  B  C  D Output_col
0  1  0  0  0          A
1  0  0  0  0   no_value
2  0  0  1  0          C
3  1  0  1  0        A_C
4  1  0  1  0        A_C
5  0  0  1  1        C_D

答案 1 :(得分:1)

编辑:用于列的子集(我使用方法2)

cols = ['A', 'B']
df1 = df[cols]
s = df1.columns + '-'
df['Output_col'] = df1.dot(s).str[:-1]

Out[54]:
   A  B  C  D Output_col
0  1  0  0  0          A
1  0  1  0  0          B
2  0  0  1  0
3  1  0  1  0          A
4  1  1  1  0        A-B
5  0  0  1  1

尝试使用str.replacedot的组合

df['Output_col'] = df.dot(df.columns).str.replace(r'(?<!^)(?!$)','-')

Out[32]:
   A  B  C  D Output_col
0  1  0  0  0          A
1  0  1  0  0          B
2  0  0  1  0          C
3  1  0  1  0        A-C
4  1  1  1  0      A-B-C
5  0  0  1  1        C-D

如果您对正则表达式模式感到不安。您可以尝试使用这种方式,而无需使用str.replace

s = df.columns + '-'
df['Output_col'] = df.dot(s).str[:-1]

Out[50]:
   A  B  C  D Output_col
0  1  0  0  0          A
1  0  1  0  0          B
2  0  0  1  0          C
3  1  0  1  0        A-C
4  1  1  1  0      A-B-C
5  0  0  1  1        C-D

答案 2 :(得分:0)

这是@Jezrael提供的解决方案的基础:link

df['Output_col'] = df.dot(df.columns.str.cat(['_']*len(df.columns),sep='')).str.strip('_')



    A   B   C   D   Output_col
0   1   0   0   0   A
1   0   1   0   0   B
2   0   0   1   0   C
3   1   0   1   0   A_C
4   1   1   1   0   A_B_C
5   0   0   1   1   C_D