如何将一系列单词转换为numpy整数数组?

时间:2017-03-23 16:45:55

标签: python numpy theano keras

我目前正在尝试使用python keras库来构建简单的神经网络 它们有多个有用的示例,例如this个。这些示例具有格式良好的输入数据,可以下载为.npz文件。

据我所知,它们代表一个numpy数组中的文本,每个单词都被编码为一个唯一的整数。我可以通过keras提供的text preprocessing methods以及我可以使用的序列来完成此操作,如下所示:

thedata = pandas.read_csv("titles.csv", sep=', ', delimiter=',', header='infer', names=None)
x = thedata['Title']
x = x.iloc[:].values 

tk = keras.preprocessing.text.Tokenizer(num_words=max_words, lower=True, split=" ")
tk.fit_on_texts(x)
x = tk.texts_to_sequences(x)
x = sequence.pad_sequences(x, maxlen=max_len)

但是如果我想用新句子做预测,我需要再次将它转换为数组。 有没有办法生成类似于通用单词索引的东西,并使用与训练数据相同的相应整数对这些新序列进行编码?

0 个答案:

没有答案