TypeError:ufunc'add'不包含签名匹配类型为dtype的循环

时间:2018-09-07 10:24:05

标签: python gensim word2vec

我想将X_train_word2vec向量作为输入传递到Gensim Word2Vec模型。 向量类型为numpy.ndarray,例如:

X_train_word2vec[9] = array([   19,     7,     1, 20120,     2,     1,   856,   233,   671,
       1,  1208,  6016,     2,    32,     0,     0,     0,     0, ....)]

当我运行此代码时:

model_word2vec = models.Word2Vec(X_train_word2vec, size=150, window=9)
model_word2vec.train(X_train_word2vec,total_examples=X_train_word2vec.shape[0], epochs=10)

我收到此错误:

TypeError: ufunc 'add' did not contain a loop with signature matching types dtype('<U11') dtype('<U11') dtype('<U11')

我已阅读this帖子,其中的问题是由于输入数组中的数据类型不同,但就我而言,我拥有相同类型的所有数据:int

更新model_Word2Vec之前的代码:

tokenizer = Tokenizer()
tokenizer.fit_on_texts(X)
sequence = tokenizer.texts_to_sequences(X)

seq_max_len = 50
X_seq = pad_sequences(sequenza, maxlen=seq_max_len,padding='post',truncating='post',dtype=int)

X_train_word2vec, X_test_word2vec, y_train_word2vec, y_test_word2vec = train_test_split(X_seq, y_cat, test_size=0.2, random_state=123)

1 个答案:

答案 0 :(得分:1)

Gensim的Word2Vec需要文本的语料库-例如在其初始化器的第一个参数中-这是字符串令牌列表的可迭代序列对象。它不需要原始的numpy数组。

此外,如果您确实在实例化时提供了语料库,如您的代码行中所示...

model_word2vec = models.Word2Vec(X_train_word2vec, size=150, window=9)

...然后它将自动进行词汇建立和培训步骤。然后,您无需显式调用train()。 (而且,虽然有可能再次调用train(),但很少有用户需要进行非常高级的操作。通常,安全的方法是在完整的语料库上进行一次培训,然后对模型进行“完成“。)

最后,train()还将任何语料库作为字符串列表的可迭代序列对象。

如果您提供正确的语料库,则很可能会收到类似您收到的错误消息。