如何基于精调的BERT模型从文本中提取特征

时间:2019-09-23 11:46:49

标签: tensorflow word embedding

我正在尝试对某些数据进行二进制预测,该数据具有一列带有文本的列和另一些具有数值的列。我的第一个解决方案是在文本上使用word2vec提取30个特征并将它们与“随机森林”中的其他值一起使用。它产生良好的结果。我对改进TEXT to FEATURE模型感兴趣。

然后我想通过使用BERT来改进特征提取算法。我设法实现了预训练的BERT模型以进行特征提取,并对word2vec进行了一些改进。

现在我想知道,我如何才能对数据上的BERT模型进行微调-以改进特征提取模型-为我的Random Forest算法获得更好的文本到特征。我知道如何为二进制预测变量(BertForSequenceClassification)微调BERT,但不知道如何微调以创建更好的BERT文本特征转换模型。我可以以某种方式使用BertForSequenceClassification中的图层吗?我花了2天的时间来寻找解决方案,但到目前为止并没有解决...

亲切的问候,彼得

2 个答案:

答案 0 :(得分:1)

是的,您可以微调BERT,然后提取功能。我已经做到了,但实际上并没有取得很好的改善。通过微调然后提取文本特征,文本特征会略微适应您的自定义训练数据。仍然可以通过2种方法来完成。使用微调,然后提取特征,或者您可以继续从BERT的检查点进行预训练(对自定义数据应用MLM),然后进行特征提取。

答案 1 :(得分:0)

我也在处理这个问题。据我所知,您必须微调BERT语言模型。根据{{​​3}},建议使用this issue。然后,您可以使用masked LM提取特征。请注意,我尚未进行测试,但是我要进行测试。我认为最好与您分享:)