从冗余二进制数据集创建多标签数据集以进行多标签分类

时间:2017-06-06 22:20:40

标签: python-3.x pandas dataframe multilabel-classification

我给出了这种类型的数据集(数据帧):

x   y

A   a
A   b
B   c
C   g
B   g

这是我对多标签分类所需要的 -

x   y

A   a,b
B   c,g
C   g

我应该怎么做?

1 个答案:

答案 0 :(得分:2)

选项1
groupby','.join

一起使用
df.groupby('x').y.apply(','.join).reset_index()

   x    y
0  A  a,b
1  B  c,g
2  C    g

选项2
pivot_table','.join

一起使用
df.pivot_table('y', 'x', aggfunc=','.join).reset_index()

   x    y
0  A  a,b
1  B  c,g
2  C    g