我正在尝试标记以UTF-8编码的文本文件。在运行命令标记并适合文本之前,这似乎很好。如何有效处理这些unicode字符? Keras代码中是否存在用于处理Unicode字符的错误。
我正在使用: Python 2.7,Keras预处理1.0.2
# Create vocabulary with training texts.
tokenizer = text.Tokenizer(num_words=TOP_K)
tokenizer.fit_on_texts(train_texts)
# Vectorize training and validation texts.
x_train = tokenizer.texts_to_sequences(train_texts)
x_val = tokenizer.texts_to_sequences(val_texts)
任何帮助表示感谢!