关于Keras嵌入层的输入形状的困惑

时间:2018-11-25 07:22:01

标签: python machine-learning keras word2vec word-embedding

我正在尝试使用Keras嵌入层创建自己的CBoW实现,以了解其工作原理。

我已经生成了由我正在搜索的上下文词向量表示的输出,大小等于我的vocab。我还生成了输入,以便每个上下文单词都有X个由它们的一键编码矢量表示的附近单词。

例如,如果我的句子是:

  

“我跑过篱笆找我的狗”

使用窗口大小2,我可以生成以下输入/输出:

[[[over,the,to,find],fence],其中“ fence”是我的上下文词,“ over”,“ the”,“ to”,“ find”是我在窗口2附近的单词(2 in前,后2个)。

使用500和100个训练样本的vocab样本,在对输入和输出进行一键编码后,它具有以下尺寸:

y.shape -> (100,500)
X.shape -> (100,4,500)

也就是说,我有100个输出,每个输出由500大小的矢量表示。我有100个输入,每个输入由一系列4 500个大小的向量表示。

我有一个简单的模型定义为:

model = Sequential()
model.add(Embedding(input_dim=vocabulary_size, output_dim=embedding_size, input_length=2*window_size))
#take average of context words at hidden layer
model.add(Lambda(lambda x: K.mean(x, axis = 1), output_shape=(embedding_size,)))
model.add(Dense(vocabulary_size, activation='softmax'))
model.compile(loss = 'categorical_crossentropy', optimizer = 'adam')

但是,当我尝试拟合模型时,出现尺寸异常:

model.fit(X, y, batch_size=10, epochs=2, verbose=1)
ValueError: Error when checking input: expected embedding_6_input to have 2 dimensions, but got array with shape (100, 4, 500)

现在,我只能假设我错误地使用了嵌入层。我已经读过这个CrossValidated QuestionKeras documentation

我仍然不确定这个嵌入层的输入是如何工作的。我相当确定我的input_dimoutput_dim是正确的,因此input_length仍然存在。根据CrossValidated,我的input_length是我序列的长度。根据Keras的说法,我的输入应为(batch_size, input_length)维度。

如果我的输入是4个单词,每个单词都由大小为vocab_size的单词向量表示,该如何将其输入到模型中?

1 个答案:

答案 0 :(得分:0)

问题是您在错误地考虑嵌入层。嵌入层只是一个可训练的查找表:您给它整数,它是单词在词汇表中的索引,它返回单词的向量(即单词嵌入)。给定索引。因此,其输入必须是句子中单词的索引。

例如,如果单词“ over”,“ the”,“ to”和“ find”的索引分别为43、6、9和33,则Embedding层的输入将为这些索引,即[43, 6, 9, 33]。因此,训练数据的形状必须为(num_samples, num_words_in_a_sentence)。在您的情况下,它将为(100, 4)。换句话说,您不需要对输入数据的单词进行一次热编码。如果您将sparse_categorical_crossentropy用作损失函数,也可以将单词索引用作标签。