多标签计算类权重-不可散列的类型

时间:2019-02-25 16:36:21

标签: python keras scikit-learn neural-network

使用Keras,sklearn等在我的神经网络中处理具有 13种可能输出 多标签 分类问题。< / p>

每个输出可以是[0,0,1,0,1,1,0,0,0,0,0,1,0]之类的数组。

我有一个不平衡数据集,我试图应用 compute_class_weight 方法,例如:

class_weight = compute_class_weight('balanced', np.unique(Y_train), Y_train)

当我尝试运行代码时,出现 Unhashable Type:'numpy.ndarray':

Traceback (most recent call last):
  File "main.py", line 115, in <module>
    train(dataset, labels)
  File "main.py", line 66, in train
    class_weight = compute_class_weight('balanced', np.unique(Y_train), Y_train)
  File "/home/python-env/env/lib/python3.6/site-packages/sklearn/utils/class_weight.py", line 41, in compute_class_weight
if set(y) - set(classes):
  TypeError: unhashable type: 'numpy.ndarray'

我知道那是因为我正在处理数组,已经尝试添加一些字典,

即:

class_weight_dict = dict(enumerate(np.unique(y_train), class_weight))

嗯,我不知道该怎么做,尝试了其他策略,但没有成功... 有什么想法吗?

谢谢!

2 个答案:

答案 0 :(得分:1)

最近遇到了类似的问题,分享一下我的思考过程。

如果您的“类别不平衡”意味着某些标签组合比其他标签组合出现的频率更高,例如有 10 个 [0,1,0,0,1] 但只有 1 个 [0,1,0,0,0],您可以使用 compute_sample_weight("balanced", Y_train) 而不是 compute_class_weight()。如果我是对的,这个函数会给训练数据集中的每个数据一个权重。返回元组的长度是训练数据集的长度(即输入数据的数量)。可以将此样本权重与 X_train 和 y_train 一起添加到您的训练集中,作为第三个参数。

如果您的“类不平衡”指的是预测标签中的负数多于正数(0s 多于 1s)——这种情况会在训练过程中给出不切实际的高准确度分数,我认为上面@Prateek 的答案可以是一个解,函数给出的权重分别为 0 和 1。

有人在这里Multi-label classification with class weights in Keras巧妙地构造了一个代码来回答这个问题。

如果您的“类不平衡”是指某些类比其他类具有更多的外观,例如,在 10 个样本中,其中 9 个包含标签 2,但其中只有 1 个包含标签 3,我不知道如何使用 class_weight 或 sample_weight 解决它。也许你可以尝试硬编码并统计每个类出现的次数,然后通过以下公式计算每个类的权重:

# weight_of_class_1 = n_samples/n_class*n_freq_class_1

# n_sample: total number of data
# n_class: number of class
# n_freq_class_1: number of appearance of class 1 in all your labels.

compute_class_weight 中使用了这个公式,但我不确定计算出的权重是否适合您的情况。

答案 1 :(得分:0)

之所以发生这种情况,主要是因为您的Ytrain是2D数组而不是1D。 试试:

class_weights = class_weight.compute_class_weight('balanced',
                                                 np.unique(np.ravel(y_train,order='C')),
                                                 np.ravel(y_train,order='C'))