Question

我正在尝试使用两种类型的嵌入层来训练LSTM。假设以下是我的标记化句子：

tokenized_sentence = ['I', 'am', 'trying', 'to', 'TARGET_TOKEN', 'my', 'way', 'home']

现在，对于“ TARGET_TOKEN”周围的单词，我有一个嵌入层（vocab_size x 128），而对于索引为4的令牌“ TARGET_TOKEN”，我有一个嵌入层（vocab_size x 512）。因此，我需要将TARGET_TOKEN嵌入从512转换为128，然后在周围单词嵌入层的输出的索引4（此索引将根据功能而改变）上插入此128维向量，然后再将此串联列表（张量）馈送到LSTM。在我的情况下，单词/标记的位置非常重要，因此我不想失去标记“ TARGET_TOKEN”在句子中的位置。

最初，我在研究如何减小512个嵌入的大小，发现使用numpy可以取每4个相邻向量的平均值，因此最终我从512维变为128维。但是，据我了解，这可能不再以正确的方式表示向量。

让我们将标记“ TARGET_TOKEN”称为“ target_token”，将其余单词称为“ context_tokens”。因此，相反，在进一步阅读之后，我认为可以将target_token嵌入层的输出传递给具有128个单位的Dense层（从而将其大小减小为128）。接下来，我将Dense层的输出与context_tokens嵌入层的输出连接起来。到目前为止，我知道该怎么做。我的问题是定位很重要，而且我的LSTM必须根据其周围环境学习target_token嵌入，这一点很重要。因此，长篇小说短篇小说我需要在索引4处连接（也许我看错了方向，但这就是我的理解方式）。

但是，Keras中的连接层没有这样的参数，我只能在不考虑位置的情况下将两层连接起来。

我的模型将接受三个输入：

input1 = target_token
input2 = context_tokens
input3 = target_token_index

和一个输出（按顺序）。

我的代码如下：

target_token_input = Input((1,))
sentence_input = Input((None,))
index_input = Input((1,), dtype="int32")

target_token_embedding_layer = Embedding(500, 512, weights=[], trainable=False)(target_token_input)

target_token_dense_layer = Dense(128, activation="relu")(target_token_embedding_layer)

context_embedding_layer = Embedding(self.vocab_size, 128, weights=[self.weight_matrix],
                                                trainable=False)(sentence_input)

concatenation_layer = Concatenate()([target_token_dense_layer, context_embedding_layer])

bidirectional = Bidirectional(LSTM(64, return_sequences=self.return_sequences, dropout=0.2, recurrent_dropout=0.2))(concatenation_layer)

normalization_layer = BatchNormalization()(bidirectional)

output_layer = TimeDistributed(Dense(self.output_size, activation=self.activation))(normalization_layer)

model = Model([target_token_input, sentence_input, index_input],[output_layer])

我的预期结果应为以下内容，此处的数字表示令牌向量的尺寸。

original_tokens = ['I', 'am', 'trying', 'to', 'eng-12345', 'my', 'way', 'home']
vector_original_tokens = [128, 128, 128, 128, 512, 128, 128, 128]
post_concatenation_tokens = [128, 128, 128, 128, 128, 128, 128, 128]

请注意，在索引4处嵌入是如何从512变为128。我正在研究将张量转换为列表的可能性，将target_token_embedding_layer的输出插入此列表的所需索引处，然后将列表转换回张量并使用该张量作为LSTM的输入。但是，我仍在设法解决这个问题。

有人知道该怎么做吗？任何帮助将不胜感激！

Answer 1

嗯，简单的答案是你不能。您可以以编程方式进行操作，看起来像您希望它们看起来那样，但是Keras LSTM无法理解。 Keras LSTM需要了解令牌之间的连接。当您从一个“ Universe”获得嵌入列表并尝试将其与另一个“ Universe”的嵌入融合在一起时，事情就不起作用了。

您必须将所有单词标记化/嵌入到相同的尺寸中才能起作用。我假设TARGET_TOKEN与字典的其余部分相比具有不同的嵌入（512）？您可以创建一个新的嵌入（128 + 512）。但是，由于您提到将原始的512个嵌入减少到128个，因此我建议您应该回到512个嵌入。

请注意我提到Keras LSTM的方法：我的手腕是对具有标准4门的常见，众所周知的LSTM层的响应。如果您是从头开始编写自己的LSTM层变体（例如使用Tensorflow或numpy），则所有选择都将关闭。

我猜您正在尝试建立某种填补空白的网络？您是从512个嵌入切换到128个嵌入的原因是什么？保存内存？

在Keras中按顺序在特定索引处连接不同维度的两个输入

1 个答案: