Keras BERT-高精度,验证精度,f1,auc->但预测很差

时间:2020-06-12 16:46:45

标签: python machine-learning keras

我已经通过tf.keras使用Google BERT训练了文本分类器。

我的数据集包含50,000行数据,平均分布在5个标签上。这是一个更大的数据集的子集,但我选择了这些特定的标签,因为它们彼此完全不同,以免在训练过程中产生混淆。

我按如下所示创建数据拆分:

train, test = train_test_split(df, test_size=0.30, shuffle=True, stratify=df['label'], random_state=10)
train, val = train_test_split(train, test_size=0.1, shuffle=True, stratify=train['label'], random_state=10)

模型设计为:

def compile():
    mirrored_strategy = tf.distribute.MirroredStrategy()
    with mirrored_strategy.scope():
        learn_rate = 4e-5
        bert = 'bert-base-uncased'
        model = TFBertModel.from_pretrained(bert, trainable=False)

        input_ids_layer = Input(shape=(512,), dtype=np.int32)
        input_mask_layer = Input(shape=(512,), dtype=np.int32)

        bert_layer = model([input_ids_layer, input_mask_layer])[0]

        X = tf.keras.layers.GlobalMaxPool1D()(bert_layer)

        output = Dense(5)(X)
        output = BatchNormalization(trainable=False)(output)
        output = Activation('softmax')(output)

        model_ = Model(inputs=[input_ids_layer, input_mask_layer], outputs=output)

        optimizer = tf.keras.optimizers.Adam(4e-5)
        loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
        metric = tf.keras.metrics.SparseCategoricalAccuracy('accuracy')

        model_.compile(optimizer=optimizer, loss=loss, metrics=[metric])
        return model_

哪个给出以下结果:

loss: 1.2433
accuracy: 0.8024
val_loss: 1.2148
val_accuracy: 0.8300
f1_score: 0.8283
precision: 0.8300
recall: 0.8286
auc: 0.9676

当我运行测试数据并将一键编码的标签转换回其原始标签(已使用model.load_weights())时...

test_sample = [test_dataset[0],test_dataset[1], test_dataset[2]]
predictions = tf.argmax(model.predict(test_sample[:2]), axis =1)
preds_inv = le.inverse_transform(predictions)
true_inv = le.inverse_transform(test_sample[2])

...混乱矩阵到处都是:

confusion_matrix(true_inv, inv_preds)

array([[ 967,  202,    7,  685, 1139],
       [ 474,  785,   27,  717,  997],
       [ 768,  372,   46, 1024,  790],
       [ 463,  426,   27, 1272,  812],
       [ 387,  224,   11,  643, 1735]])

有趣的是,几乎没有人预测到第三个标签。

请注意,我在批量归一化中设置了trainable = False,但是在训练过程中将其设置为true。

输入数据由两个数组组成:文本字符串的数字矢量表示(嵌入)和用于标识每个字符串的512个元素中的哪个填充元素的填充标记。

在采用深层预训练模型(bert)训练的,均衡均衡的数据集上给出合理的准确度得分,但糟糕的预测的原因可能是什么?

1 个答案:

答案 0 :(得分:0)

在我的特定情况下,我通过调查2个引起混淆的标签的内容来解决了这个问题。我是用wordcloud做的。下面的示例显示了我的标签之一的代码:

from os import path
from PIL import Image
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import matplotlib.pyplot as plt
% matplotlib inline

df1 = df[df['label']==48000000]
text = " ".join(review for review in df1.text)
wordcloud = WordCloud().generate(text)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

enter image description here

现在,据我了解,BERT应该能够识别出哪些单词对特定标签很重要(使用类似TF-IDF的方法?不确定),但是,当我使用NLTK删除停用词时,也可以添加到列出了我认为对我的特定数据集通用的单词,在这种情况下为“系统”,“服务”(等),在重新训练模型后,准确性显着提高:

import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

def preprocess_text(sentence):

    # Convert to lowercase
    sentence = sentence.lower()

    new_stopwords = ['service','contract','solution','county','supplier',
             'district','council','borough','management',
             'provider','provision'
              'project','contractor']

    stop_words = set(stopwords.words('english'))
    stop_words.update(new_stopwords)
    sentence = [w for w in sentence.split(" ") if not w in stop_words]
    sentence = ' '.join(w for w in sentence)
return sentence

df['text'] = df['text'].apply(preprocess_text)

enter image description here