我目前正在阅读有关Google's transformer architecture
的神经机器翻译('Attention is all you need'
)的论文。
在基于RNN的seq2seq设置中,源语句和输出语句通常是一键编码的。他们在转换论文中说,他们还使用正弦/余弦函数对句子中标记的位置进行了编码,这将导致不再进行单热编码。
也许是一个幼稚的问题,但即使combine one-hot encoded word with a positional dense encoding
也合理吗?
是否期望网络从这种表示中学习到一些东西?单词信息大部分是全零的,除了一个字段带有一堆代表位置的密集值?我倾向于说网络将不会学到任何东西,或者至少令牌信息几乎不会获得任何权重,因为它是一个相当大的向量中的单个1字段。