不平衡数据集中的多类分类

时间:2020-02-01 20:24:27

标签: python tensorflow neural-network classification multiclass-classification

我有这个数据集,其标签数如下: enter image description here

我确实知道它非常不平衡。我尝试过采样和欠采样,它们为培训提供了很好的准确性。但是,他们当然给验证的准确性非常低。我还尝试了以下类权重: class_weights = class_weight.compute_class_weight('balanced', np.unique(Y), Y) 而且这也降低了验证的准确性。我什至排除了排除其他标签的情况,只剩下5个最高的标签仍然可以获得约36%的验证准确度和92%的训练准确度。我认为所有这些都是由于过度拟合。但是我的模型很简单;它是:

model = tf.keras.Sequential([
    tf.keras.layers.Embedding(MAX_NB_WORDS,int(len(word_index)*.25),input_length=X.shape[1]),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64,dropout=.5)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(5, activation='sigmoid')
])

我很困惑,不知道该怎么办?

0 个答案:

没有答案