在Tensorflow中加载预训练的Word2Vec嵌入

时间:2017-04-27 12:49:32

标签: tensorflow lstm embedding word2vec

我正在尝试在我的Tensorflow代码中加载预先训练的Word2Vec(或Glove)嵌入,但是我理解它时遇到一些问题,因为我找不到很多例子。问题不是关于获取和加载嵌入矩阵,我理解,而是关于查找单词id。 目前我正在使用https://ireneli.eu/2017/01/17/tensorflow-07-word-embeddings-2-loading-pre-trained-vectors/中的代码。 在那里,首先加载(理解)嵌入矩阵。 然后,词汇处理器用于将句子x转换为单词ID列表:

vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)
#fit the vocab from glove
pretrain = vocab_processor.fit(vocab)
#transform inputs
x = np.array(list(vocab_processor.transform(your_raw_input)))

这有效并给我一个单词ID列表,但我不知道这是否正确。让我最困扰的是词汇处理器如何从我刚刚阅读的嵌入中获取正确的单词ID(因为否则嵌入的结果将是错误的)。 适合步骤是否这样做?

或者还有另外一种方法,你如何进行这种查找?

谢谢! 奥利弗

1 个答案:

答案 0 :(得分:1)

是的,fit步骤告诉vocab_processor数组中每个单词(从1开始)的vocab 索引transform刚刚撤消了此查询并从单词生成索引,并使用0将输出填充到max_document_size

你可以在这里看到一个简短的例子:

vocab_processor = learn.preprocessing.VocabularyProcessor(5)
vocab = ['a', 'b', 'c', 'd', 'e']
pretrain = vocab_processor.fit(vocab)

pretrain == vocab_processor
# True

np.array(list(pretrain.transform(['a b c', 'b c d', 'a e', 'a b c d e'])))

# array([[1, 2, 3, 0, 0],
#        [2, 3, 4, 0, 0],
#        [1, 5, 0, 0, 0],
#        [1, 2, 3, 4, 5]])
#