TensorFlow通过唯一CSV行而不是唯一行中的单词进行标记化

时间:2019-06-28 16:02:13

标签: python tensorflow machine-learning tokenize one-hot-encoding

我正在尝试使用令牌生成器将自由文本分类为精选类别。

对于功能,我正在使用:

x_tokenizer = Tokenizer()
x_tokenizer.fit_on_texts(x)
x_train = x_tokenizer.texts_to_matrix(x_train, mode='count')
x_test = x_tokenizer.texts_to_matrix(x_test, mode='count')

x_tokenizer.word_docs返回如下内容:

defaultdict(<class 'int'>, {'name': 1, 'releasing': 1, 'one': 4, 'vehicle': 101, 'air': 3, 'vhel': 1, 'recently': 2})

这对于功能很有意义,但我想将每个行项目都用作标签。 现在,对于标签,我使用的是相同的代码:

y_tokenizer = Tokenizer()
y_tokenizer.fit_on_texts(y)
y_train = y_tokenizer.texts_to_matrix(y_train, mode='count')
y_test = y_tokenizer.texts_to_matrix(y_test, mode='count')

并返回如下内容:

defaultdict(<class 'int'>, {'a': 2, 'c': 2, 'language': 1, 'settings': 203, 'audio': 7, 'volume': 1})

但是我想要这个:

defaultdict(<class 'int'>, {'a/c': 2, 'language settings': 1, 'audio volume': 7})

,以便label列中的每个唯一值都将表示为唯一标记。我该怎么办呢?

提前谢谢!

0 个答案:

没有答案