Question

我想使用自己的数据集而不是IMDB。在检查默认数据集的格式后，我看到句子中的每个单词都被其词汇索引替换，后者按降序排序。

我正在通过这里的keras文档https://keras.io/preprocessing/text/查找一个可以实现此目的的方法，它们似乎都不适用于我。

我一直在尝试

Tokenizer.fit_on_texts和Tokenizer.fit_on_sequences方法。

适合文字返回

AttributeError: 'float' object has no attribute 'lower'

错误。

我的输入是pandas系列文字。

有人能指出我做错了什么吗？我查看了以下帖子，但没有帮助

谢谢！

Answer 1

发现错误，其中一个文本是NaN，导致Tokenizer中断。离开这里可以帮助任何人：）