Keras预处理文本模块在单词索引中返回无效的Unicode字符

时间:2019-03-18 03:18:07

标签: python-2.7 keras

我正在尝试标记以UTF-8编码的文本文件。在运行命令标记并适合文本之前,这似乎很好。如何有效处理这些unicode字符? Keras代码中是否存在用于处理Unicode字符的错误。

我正在使用: Python 2.7,Keras预处理1.0.2

# Create vocabulary with training texts.

tokenizer = text.Tokenizer(num_words=TOP_K)

tokenizer.fit_on_texts(train_texts)

# Vectorize training and validation texts.

x_train = tokenizer.texts_to_sequences(train_texts)

x_val = tokenizer.texts_to_sequences(val_texts)

这是我得到的结果- After tokenizing the original text

任何帮助表示感谢!

0 个答案:

没有答案