应用错误收集

我正在尝试标记以UTF-8编码的文本文件。在运行命令标记并适合文本之前，这似乎很好。如何有效处理这些unicode字符？ Keras代码中是否存在用于处理Unicode字符的错误。

我正在使用： Python 2.7，Keras预处理1.0.2

# Create vocabulary with training texts.

tokenizer = text.Tokenizer(num_words=TOP_K)

tokenizer.fit_on_texts(train_texts)

# Vectorize training and validation texts.

x_train = tokenizer.texts_to_sequences(train_texts)

x_val = tokenizer.texts_to_sequences(val_texts)

这是我得到的结果-

任何帮助表示感谢！