请参阅此处keras文档中提供的示例:https://github.com/fchollet/keras/blob/master/examples/imdb_bidirectional_lstm.py
我想使用自己的数据集而不是IMDB。在检查默认数据集的格式后,我看到句子中的每个单词都被其词汇索引替换,后者按降序排序。
我正在通过这里的keras文档https://keras.io/preprocessing/text/查找一个可以实现此目的的方法,它们似乎都不适用于我。
我一直在尝试
Tokenizer.fit_on_texts
和Tokenizer.fit_on_sequences
方法。
适合文字返回
AttributeError: 'float' object has no attribute 'lower'
错误。
我的输入是pandas
系列文字。
有人能指出我做错了什么吗?我查看了以下帖子,但没有帮助
Keras - Text Classification - LSTM - How to input text?
谢谢!
答案 0 :(得分:0)
发现错误,其中一个文本是NaN
,导致Tokenizer中断。离开这里可以帮助任何人:)