keras中多标签图像的一种热编码

时间:2019-09-16 05:37:04

标签: python pandas keras one-hot-encoding multilabel-classification

我正在使用PASCAL VOC 2012数据集进行图像分类。一些图像具有多个标签,其中一些图像具有单个标签,如下所示。

    0  2007_000027.jpg               {'person'}
    1  2007_000032.jpg  {'aeroplane', 'person'}
    2  2007_000033.jpg            {'aeroplane'}
    3  2007_000039.jpg            {'tvmonitor'}
    4  2007_000042.jpg                {'train'}

我想对这些标签进行一次热编码以训练模型。但是,我不能使用keras.utils.to_categorical,因为这些标签不是整数,而pandas.get_dummies并没有给我预期的结果。 get_dummies给出了以下不同的类别,即,将标签的每个唯一组合作为一个类别。

 {'aeroplane', 'bus', 'car'}  {'aeroplane', 'bus'}  {'tvmonitor', 'sofa'}  {'tvmonitor'} ...

一次热编码这些标签的最佳方法是什么,因为我们没有为每个图像指定特定数量的标签。

1 个答案:

答案 0 :(得分:2)

如果第二栏中可能有set,请使用MultiLabelBinarizer

print (df)
                 a                        b
0  2007_000027.jpg               {'person'}
1  2007_000032.jpg  {'aeroplane', 'person'}
2  2007_000033.jpg            {'aeroplane'}
3  2007_000039.jpg            {'tvmonitor'}
4  2007_000042.jpg                {'train'}

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
df = pd.DataFrame(mlb.fit_transform(df['b']),columns=mlb.classes_)
print (df)
   aeroplane  person  train  tvmonitor
0          0       1      0          0
1          1       1      0          0
2          1       0      0          0
3          0       0      0          1
4          0       0      1          0

或将Series.str.joinSeries.str.get_dummies一起使用,但是在大型DataFrame中应该更慢:

df = df['b'].str.join('|').str.get_dummies()
print (df)

   aeroplane  person  train  tvmonitor
0          0       1      0          0
1          1       1      0          0
2          1       0      0          0
3          0       0      0          1
4          0       0      1          0