在任何输入数据上执行字嵌入后,获取所有零的嵌入矩阵

时间:2018-02-14 10:50:25

标签: keras tokenize word2vec word-embedding

我正在尝试在Keras中进行单词嵌入。我正在使用'glove.6B.50d.txt'。我可以从“glove.6B.50d.txt”文件中获取正确的输出,直到准备嵌入索引。

但是每当我将单词从我提供的输入映射到嵌入索引中时,我总是会将矩阵嵌入为零。

以下是代码:

#here is the example sentence given as input

line="The quick brown fox jumped over the lazy dog"
line=line.split(" ")

#this is my embedding file
EMBEDDING_FILE='glove.6B.50d.txt'

embed_size = 10 # how big is each word vector
max_features = 10000 # how many unique words to use (i.e num rows in embedding vector)
maxlen = 10 # max number of words in a comment to use


tokenizer = Tokenizer(num_words=max_features,split=" ",char_level=False)
tokenizer.fit_on_texts(list(line))
list_tokenized_train = tokenizer.texts_to_sequences(line)
sequences = tokenizer.texts_to_sequences(line)

word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

X_t = pad_sequences(list_tokenized_train, maxlen=maxlen)

print(sequences)
print(word_index)
print('Shape of data tensor:', X_t.shape)

#got correct output here as 

 # Found 8 unique tokens.
    #[[1], [2], [3], [4], [5], [6], [1], [7], [8]]
    #{'the': 1, 'quick': 2, 'brown': 3, 'fox': 4, 'jumped': 5, 'over': 6, 'lazy': 7, 'dog': 8}
   # Shape of data tensor: (9, 10)


#loading the embedding file to prepare embedding index matrix
embeddings_index = {}
for i in open(EMBEDDING_FILE, "rb"):
    values = i.split()
    word = values[0]
    #print(word)
    coefs = np.asarray(values[1:], dtype='float32')
    embeddings_index[word] = coefs

print('Found %s word vectors.' % len(embeddings_index))

#Found 400000 word vectors.

#making the embedding matrix

embedding_matrix = np.zeros((len(word_index) + 1, embed_size))
for word, i in word_index.items():
    embedding_vector = embeddings_index.get(word)
    if embedding_vector is not None:
        # words not found in embedding index will be all-zeros.
        embedding_matrix[i] = embedding_vector

这里当我打印嵌入矩阵时,我得到全部为零(即输入中没有一个单词被识别)。

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

此外,如果我为每次迭代打印embeddings_index.get(word),则无法获取该单词并返回NONE。

我在代码中哪里出错了?

2 个答案:

答案 0 :(得分:0)

  1. 嵌入大小应为50而不是10(表示嵌入字的维度)
  2. 要素数量应>>> 50(接​​近10,000)。将其限制为50意味着将丢失大量的向量

答案 1 :(得分:0)

今天解决了问题。 由于某些编码问题,似乎embeddings_index.get(word)无法得到这个词。

我将嵌入矩阵编制中的for i in open(EMBEDDING_FILE, "rb"):更改为for i in open(EMBEDDING_FILE, 'r', encoding='utf-8'): 这解决了这个问题。