Tfidf矢量化器

时间:2020-01-21 07:51:40

标签: scikit-learn nlp tokenize tfidfvectorizer

我从文本审阅中获取了一个用于预测情绪的数据集,最初,我清理了数据(删除了标点符号,删除了停用词,标记化)。当我尝试将Tokenized数据作为输入给TFIDF矢量化器时, AttributeError:“列表”对象没有属性“较低”。请帮助我克服这个错误。 This is my Clean Text

TFIDF Vectorizer

2 [Attribute Error] 2https://i.stack.imgur.com/VSsHu.png

Error

1 个答案:

答案 0 :(得分:2)

TF-IDF向量化处理原始(即未标记化)文本,并自行进行标记化。

fit_transform方法需要可迭代的字符串。应用NLTK令牌生成器会将评论字符串转换为字符串列表(令牌列表)。

如果您出于某些原因不信任scikit-learn中的内部标记器,则可以自定义标记器:

tfidf = TfidfVectorizer(tokenizer=nltk.word_tokenize)
相关问题