我可以使用非线性的堆叠式自动编码器训练Word2vec吗?

时间:2019-06-26 18:33:28

标签: neural-network nlp word2vec autoencoder

每次我读到Word2vec时,都是通过一个非常简单的Autoencoder获得嵌入的:仅一个隐藏层,初始层的线性激活,输出层的softmax。

我的问题是:为什么我不能使用堆叠的Autoencoder训练一些Word2vec模型,而Autoencoder具有一些具有更高级激活功能的隐藏层? (当然会保留输出端的softmax。)

我从没有找到任何对此的解释,因此欢迎提供任何提示。

1 个答案:

答案 0 :(得分:1)

注意词向量,但是神经网络的隐藏状态试图变得更好。

回答您的问题 当然可以。

如果要这样做,为什么不使用更高级的网络/编码器,例如BiLSTMTransformers

这就是创建ElMoBERT之类的人所做的事情(尽管他们的网络非常热衷)。