在BERT中用预先计算的结果替换位置嵌入会导致预测结果不佳

时间:2019-03-07 02:44:10

标签: nlp ner

我正在尝试将BERT用于NER任务。为了获得更好的预测结果,我正在尝试根据embedding_postprocessor()的原理,将sinusoidal embedding函数中的位置嵌入替换为一些预先计算的结果,如论文"Attention is all you need"所述。

尽管在20 hours training之后,该模型似乎实现了良好的收敛性(损失下降到大约10 ^ -2或10 ^ -3),但是测试结果非常糟糕,准确率约为20%-30 %。

有人试图用其他实现方法替换positional embedding的{​​{1}}吗?使用BERT的想法会在sinusoidal embedding中起作用吗?还是只能坚持在BERT中学到的positional embedding

0 个答案:

没有答案