我正在尝试使用两种类型的嵌入层来训练LSTM。假设以下是我的标记化句子:
tokenized_sentence = ['I', 'am', 'trying', 'to', 'TARGET_TOKEN', 'my', 'way', 'home']
现在,对于“ TARGET_TOKEN”周围的单词,我有一个嵌入层(vocab_size x 128),而对于索引为4的令牌“ TARGET_TOKEN”,我有一个嵌入层(vocab_size x 512)。因此,我需要将TARGET_TOKEN嵌入从512转换为128,然后在周围单词嵌入层的输出的索引4(此索引将根据功能而改变)上插入此128维向量,然后再将此串联列表(张量)馈送到LSTM。在我的情况下,单词/标记的位置非常重要,因此我不想失去标记“ TARGET_TOKEN”在句子中的位置。
最初,我在研究如何减小512个嵌入的大小,发现使用numpy可以取每4个相邻向量的平均值,因此最终我从512维变为128维。但是,据我了解,这可能不再以正确的方式表示向量。
让我们将标记“ TARGET_TOKEN”称为“ target_token”,将其余单词称为“ context_tokens”。因此,相反,在进一步阅读之后,我认为可以将target_token嵌入层的输出传递给具有128个单位的Dense层(从而将其大小减小为128)。接下来,我将Dense层的输出与context_tokens嵌入层的输出连接起来。到目前为止,我知道该怎么做。我的问题是定位很重要,而且我的LSTM必须根据其周围环境学习target_token嵌入,这一点很重要。因此,长篇小说短篇小说我需要在索引4处连接(也许我看错了方向,但这就是我的理解方式)。
但是,Keras中的连接层没有这样的参数,我只能在不考虑位置的情况下将两层连接起来。
我的模型将接受三个输入:
input1 = target_token
input2 = context_tokens
input3 = target_token_index
和一个输出(按顺序)。
我的代码如下:
target_token_input = Input((1,))
sentence_input = Input((None,))
index_input = Input((1,), dtype="int32")
target_token_embedding_layer = Embedding(500, 512, weights=[], trainable=False)(target_token_input)
target_token_dense_layer = Dense(128, activation="relu")(target_token_embedding_layer)
context_embedding_layer = Embedding(self.vocab_size, 128, weights=[self.weight_matrix],
trainable=False)(sentence_input)
concatenation_layer = Concatenate()([target_token_dense_layer, context_embedding_layer])
bidirectional = Bidirectional(LSTM(64, return_sequences=self.return_sequences, dropout=0.2, recurrent_dropout=0.2))(concatenation_layer)
normalization_layer = BatchNormalization()(bidirectional)
output_layer = TimeDistributed(Dense(self.output_size, activation=self.activation))(normalization_layer)
model = Model([target_token_input, sentence_input, index_input],[output_layer])
我的预期结果应为以下内容,此处的数字表示令牌向量的尺寸。
original_tokens = ['I', 'am', 'trying', 'to', 'eng-12345', 'my', 'way', 'home']
vector_original_tokens = [128, 128, 128, 128, 512, 128, 128, 128]
post_concatenation_tokens = [128, 128, 128, 128, 128, 128, 128, 128]
请注意,在索引4处嵌入是如何从512变为128。我正在研究将张量转换为列表的可能性,将target_token_embedding_layer的输出插入此列表的所需索引处,然后将列表转换回张量并使用该张量作为LSTM的输入。但是,我仍在设法解决这个问题。
有人知道该怎么做吗?任何帮助将不胜感激!
答案 0 :(得分:0)
嗯,简单的答案是你不能。您可以以编程方式进行操作,看起来像您希望它们看起来那样,但是Keras LSTM无法理解。 Keras LSTM需要了解令牌之间的连接。当您从一个“ Universe”获得嵌入列表并尝试将其与另一个“ Universe”的嵌入融合在一起时,事情就不起作用了。
您必须将所有单词标记化/嵌入到相同的尺寸中才能起作用。我假设TARGET_TOKEN与字典的其余部分相比具有不同的嵌入(512)?您可以创建一个新的嵌入(128 + 512)。但是,由于您提到将原始的512个嵌入减少到128个,因此我建议您应该回到512个嵌入。
请注意我提到Keras LSTM的方法:我的手腕是对具有标准4门的常见,众所周知的LSTM层的响应。如果您是从头开始编写自己的LSTM层变体(例如使用Tensorflow或numpy),则所有选择都将关闭。
我猜您正在尝试建立某种填补空白的网络?您是从512个嵌入切换到128个嵌入的原因是什么?保存内存?