我正在尝试将BERT
用于NER
任务。为了获得更好的预测结果,我正在尝试根据embedding_postprocessor()
的原理,将sinusoidal embedding
函数中的位置嵌入替换为一些预先计算的结果,如论文"Attention is all you need"
所述。
尽管在20 hours training
之后,该模型似乎实现了良好的收敛性(损失下降到大约10 ^ -2或10 ^ -3),但是测试结果非常糟糕,准确率约为20%-30 %。
有人试图用其他实现方法替换positional embedding
的{{1}}吗?使用BERT
的想法会在sinusoidal embedding
中起作用吗?还是只能坚持在BERT
中学到的positional embedding
?