在整个x_data上还是仅在train_data上对Keras fit_to_text更好?

时间:2019-02-26 17:56:50

标签: python keras tokenize

我有一个带有文本列的数据框。我将它们分为x_trainx_test

我的问题是,对整个Tokenizer.fit_on_text()数据集还是仅对x进行Keras的x_train更好?

赞:

tokenizer = Tokenizer()
tokenizer.fit_on_texts(x_data)

tokenizer.fit(on_texts(x_train)
tokenizer.texts_to_sequences(x_train)

有关系吗?我也必须稍后再标记x_test,所以我可以只使用同一个标记器吗?

1 个答案:

答案 0 :(得分:2)

尽管this question中的信息很好,但确实需要注意一些重要的事情:

  

必须在训练和测试数据中使用相同的令牌生成器

否则,每个数据集将有不同的标记。每个令牌生成器都有一个内部字典,该字典是用fit_on_texts创建的。

不能保证训练和测试数据的相同单词和频率相同,因此每个数据集都会创建不同的字典,并且测试数据的所有结果都是错误的。

这也意味着您不能fit_on_texts,先训练再再fit_on_texts:这将更改内部词典。

有可能适合所有数据。但是,为“未知”字词(oov_token=True)保留令牌可能是一个更好的主意,在这种情况下,当您使用模型从未见过的字词查找新的测试数据时(这需要在训练数据中替换稀有字词)与此令牌也是如此)。


使用未知词测试令牌生成器:

以下测试表明,未设置oov_token时,令牌生成器将完全忽略未知单词。这可能不是一个好主意。未知词可能是句子中的关键词,而仅仅忽略它们可能比知道那里有未知词更糟糕。

import numpy as np
from keras.layers import *
from keras.models import Model
from keras.preprocessing.text import Tokenizer

training = ['hey you there', 'how are you', 'i am fine thanks', 'hello there']
test = ['he is fine', 'i am fine too']

tokenizer = Tokenizer()
tokenizer.fit_on_texts(training)

print(tokenizer.texts_to_sequences(training))
print(tokenizer.texts_to_sequences(test))

输出:

[[3, 1, 2], [4, 5, 1], [6, 7, 8, 9], [10, 2]]
[[8], [6, 7, 8]]

现在,这表明令牌生成器会将索引1赋予所有未知单词:

tokenizer2 = Tokenizer(oov_token = True)
tokenizer2.fit_on_texts(training)
print(tokenizer2.texts_to_sequences(training))
print(tokenizer2.texts_to_sequences(test))

输出:

[[4, 2, 3], [5, 6, 2], [7, 8, 9, 10], [11, 3]]
[[1, 1, 9], [7, 8, 9, 1]]

但是在训练数据中也将一组稀有词也替换为1可能很有趣,因此您的模型具有如何处理未知词的概念。