在DL4J模型中转换keras模型

时间:2019-02-19 11:10:30

标签: keras deeplearning4j dl4j

我必须在Java中保存并加载一个keras模型,然后我认为我可以使用DL4J。问题是,当我保存模型时,它没有自己权重的“嵌入”层。 在keras中重新加载模型时,我遇到了同样的问题,但是在这种情况下,我可以创建相同的体系结构,并且仅加载模型的权重。

特别是从这样的架构开始:


Layer (type)                 Output Shape              Param #   
=================================================================
embedding_1 (Embedding)      (None, 300, 300)          219184200 
_________________________________________________________________
lstm_1 (LSTM)                (None, 300, 256)          570368    
_________________________________________________________________
dropout_1 (Dropout)          (None, 300, 256)          0         
_________________________________________________________________
lstm_2 (LSTM)                (None, 128)               197120    
_________________________________________________________________
dropout_2 (Dropout)          (None, 128)               0         
_________________________________________________________________
dense_1 (Dense)              (None, 2)                 258       
=================================================================

保存并加载后,我得到了这个(在keras和DL4J中都是这样):

Layer (type)                 Output Shape              Param #   
=================================================================
embedding_1 (Embedding)      (None, None, 300)         219184200 
_________________________________________________________________
lstm_1 (LSTM)                (None, None, 256)         570368    
_________________________________________________________________
dropout_1 (Dropout)          (None, None, 256)         0         
_________________________________________________________________
lstm_2 (LSTM)                (None, 128)               197120    
_________________________________________________________________
dropout_2 (Dropout)          (None, 128)               0         
_________________________________________________________________
dense_1 (Dense)              (None, 2)                 258       
=================================================================

在Java中有解决方案或变通办法吗? 1)是否可以正确保存和加载喀拉拉邦的结构和重量?

2)是否可以使用DL4J或其他库在Java中创建这种类型的模型?

3)是否可以在函数中实现将单词转换为Embedding,然后将先前在Embedding中转换的输入提供给神经网络?

4)我可以使用DL4J在Java的嵌入层中加载权重吗?

这是我的网络的代码:

sentence_indices = Input(shape=input_shape, dtype=np.int32)
emb_dim = 300  # embedding di 300 parole in italiano
embedding_layer = pretrained_embedding_layer(word_to_vec_map, word_to_index, emb_dim)

embeddings = embedding_layer(sentence_indices)   

X = LSTM(256, return_sequences=True)(embeddings)
X = Dropout(0.15)(X)
X = LSTM(128)(X)
X = Dropout(0.15)(X)
X = Dense(num_activation, activation='softmax')(X)

model = Model(sentence_indices, X)

sequentialModel = Sequential(model.layers) 

谢谢。

2 个答案:

答案 0 :(得分:1)

您可能可以在DL4J Gitter聊天中得到以下答复:https://gitter.im/deeplearning4j/deeplearning4j

答案 1 :(得分:1)

我发现Keras神经网络和DL4J神经网络之间的差异是由于word2Vec(或GloVe)文件的差异分析引起的。 特别是加载word2Vec然后解析以创建3个字典: -word2Index -index2Word -word2EmbeddingVec

from gensim.models import Word2Vec
modelW2V = Word2Vec.load('C:/Users/Alessio/Desktop/emoji_ita/embedding/glove_WIKI') # glove model

我发现两个不同的解析(使用相同的代码)为“ index-word”和“ word-index”对产生不同的匹配。将字典保存在json文件中,然后从中加载数据对我来说是一个解决方案。

希望这也可以帮助其他人。