我有一个关于Tensorflow中LSTM实现的问题......尤其是seq2seq建模的应用(你有一个编码器和解码器)。
简而言之:在使用seq2seq模型时学习单词嵌入,我们不是有冗余权重吗?
通常的方法是嵌入输入字(用于编码器),如word2vec向量,但建模方法也能够学习这些嵌入。这意味着当我们要为编码器设置变量时,我们有一个额外的嵌入矩阵(在LSTM之外),它编码我们的词汇表。 我对LSTM节点的理解,或者让我们采用(更简单的)RNN节点,是应用以下等式
sigma(W \cdot x + U \cdot h + b)
我们有尺寸
(n_hidden \times n_feature) (n_feature \times 1) + (n_hidden \times n_hidden) (n_hidden \times 1) + (n_hidden \times 1).
我相信这里的值一(1)可以替换为batch_size。 (如果我错了请纠正我)
我担心的是W \cdot x
部分。因为在这种情况下,向量x已经是一个嵌入向量,因此计算W \cdot x
感觉是多余的......如果x是一个热门的编码向量,那么IMO就会有意义。
任何人都可以告诉我,如果我的推理是合理的,并且我是否正确理解了seq2seq模型的'额外嵌入'。
编辑:我现在唯一能想到的就是你不想因为某些原因而在你的LSTM中完全嵌入......(为什么我不清楚)。但是我可以想象如果你需要将LSTM的n_hidden维度设置为词汇量大小,你会失去一些灵活性。例如..当你的词汇量大小改变......或者也许是训练努力..如果有人能证实这一点,那就太棒了:)