预处理keras LSTM的文本数据

时间:2017-07-17 07:13:51

标签: python keras

请参阅此处keras文档中提供的示例:https://github.com/fchollet/keras/blob/master/examples/imdb_bidirectional_lstm.py

我想使用自己的数据集而不是IMDB。在检查默认数据集的格式后,我看到句子中的每个单词都被其词汇索引替换,后者按降序排序。

我正在通过这里的keras文档https://keras.io/preprocessing/text/查找一个可以实现此目的的方法,它们似乎都不适用于我。

我一直在尝试

Tokenizer.fit_on_textsTokenizer.fit_on_sequences方法。

适合文字返回

AttributeError: 'float' object has no attribute 'lower'

错误。

我的输入是pandas系列文字。

有人能指出我做错了什么吗?我查看了以下帖子,但没有帮助

Keras - Text Classification - LSTM - How to input text?

谢谢!

1 个答案:

答案 0 :(得分:0)

发现错误,其中一个文本是NaN,导致Tokenizer中断。离开这里可以帮助任何人:)