Question

我从文本审阅中获取了一个用于预测情绪的数据集，最初，我清理了数据（删除了标点符号，删除了停用词，标记化）。当我尝试将Tokenized数据作为输入给TFIDF矢量化器时， AttributeError：“列表”对象没有属性“较低”。请帮助我克服这个错误。

Answer 1

TF-IDF向量化处理原始（即未标记化）文本，并自行进行标记化。

fit_transform方法需要可迭代的字符串。应用NLTK令牌生成器会将评论字符串转换为字符串列表（令牌列表）。

如果您出于某些原因不信任scikit-learn中的内部标记器，则可以自定义标记器：

tfidf = TfidfVectorizer(tokenizer=nltk.word_tokenize)