BERT和ALBERT中的训练数据损失巨大且准确性较低

时间:2020-04-23 13:57:41

标签: python tensorflow machine-learning keras deep-learning

我正在使用拥抱面TFBertModel进行分类任务(来自here:),我使用的是裸露的TFBertModel,但头部密度更高,而不是TFBertForSequenceClassification因为我看不到如何使用后者使用预训练的权重来微调模型。

据我所知,微调应该使BERT和ALBERT的精度都达到80%左右或更高,但我什至没有达到这个数字:

Train on 3600 samples, validate on 400 samples
Epoch 1/2
3600/3600 [==============================] - 177s 49ms/sample - loss: 0.6531 - accuracy: 0.5792 - val_loss: 0.5296 - val_accuracy: 0.7675
Epoch 2/2
3600/3600 [==============================] - 172s 48ms/sample - loss: 0.6288 - accuracy: 0.6119 - val_loss: 0.5020 - val_accuracy: 0.7850

更多时代没有多大区别。

我正在使用CoLA公共data set进行微调,这是数据的样子:

gj04    1       Our friends won't buy this analysis, let alone the next one we propose.
gj04    1       One more pseudo generalization and I'm giving up.
gj04    1       One more pseudo generalization or I'm giving up.
gj04    1       The more we study verbs, the crazier they get.
...

这是将数据加载到python中的代码:

import csv


def get_cola_data(max_items=None):
    csv_file = open('cola_public/raw/in_domain_train.tsv')

    reader = csv.reader(csv_file, delimiter='\t')
    x = []
    y = []

    for row in reader:
        x.append(row[3])
        y.append(float(row[1]))

    if max_items is not None:
        x = x[:max_items]
        y = y[:max_items]

    return x, y

我验证了数据的格式符合我希望其在列表中的格式,这是模型本身的代码:

#!/usr/bin/env python

import tensorflow as tf
from tensorflow import keras
from transformers import BertTokenizer, TFBertModel
import numpy as np
from cola_public import get_cola_data


tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
bert_model = TFBertModel.from_pretrained('bert-base-uncased')

bert_model.trainable = False

x_input = keras.Input(shape=(512,), dtype=tf.int64)
x_mask = keras.Input(shape=(512,), dtype=tf.int64)

_, output = bert_model([x_input, x_mask])
output = keras.layers.Dense(1)(output)

model = keras.Model(
    inputs=[x_input, x_mask],
    outputs=output,
    name='bert_classifier',
)

model.compile(
    loss=keras.losses.BinaryCrossentropy(from_logits=True),
    optimizer=keras.optimizers.Adam(),
    metrics=['accuracy'],
)

train_data_x, train_data_y = get_cola_data(max_items=4000)

encoded_data = [tokenizer.encode_plus(data, add_special_tokens=True, pad_to_max_length=True) for data in train_data_x]

train_data_x = np.array([data['input_ids'] for data in encoded_data])
mask_data_x = np.array([data['attention_mask'] for data in encoded_data])

train_data_y = np.array(train_data_y)

model.fit(
    [train_data_x, mask_data_x],
    train_data_y,
    epochs=2,
    validation_split=0.1,
)

cmd_input = ''

while True:
    print("Type an opinion: ")
    cmd_input = input()
    # print('Your opinion is: %s' % cmd_input)

    if cmd_input == 'exit':
        break

    cmd_input_tokens = tokenizer.encode_plus(cmd_input, add_special_tokens=True, pad_to_max_length=True)
    cmd_input_ids = np.array([cmd_input_tokens['input_ids']])
    cmd_mask = np.array([cmd_input_tokens['attention_mask']])

    model.reset_states()
    result = model.predict([cmd_input_ids, cmd_mask])

    print(result)

现在,无论我是否使用其他数据集,数据集中的其他项目数,是否在最后一个密集层之前使用了退出层,是否在最后一个密集层之前提供了另一个密集层,单位数更多,或者我使用Albert而不是BERT,我总是精度低,损失高,而且验证精度常常高于训练精度。

如果我尝试使用BERT / ALBERT进行NER任务,我将得到相同的结果,结果始终是相同的,这使我相信我系统地在微调方面犯了一些根本性的错误。

我知道我有bert_model.trainable = False,这就是我想要的,因为我只想训练最后一个头部,而不是预先训练的举重,而且我知道人们可以那样成功地进行训练。即使我用预先训练的重量训练,结果也很糟糕。

我看到我的适应度非常高,但是我无法将手指放在这里可以改善的地方,尤其是看到人们倾向于仅在模型顶部只有一个致密层时就可以获得良好的结果。

1 个答案:

答案 0 :(得分:4)

对于BERT,默认学习率太高。尝试将其设置为5e-5、3e-5或2e-5的original paper附录A.3中建议的学习率之一。