我正在使用movie_reviews数据并在其中使用countvectorizer。我想在字典中更改它以显示索引中的唯一单词,如下所示:
from sklearn.feature_extraction.text import CountVectorizer
import nltk
cv = CountVectorizer(tokenizer=nltk.word_tokenize , stop_words='english')
movie_train_cv = cv.fit_transform(movie_train.data)
movie_train_cv.vocabulary_
AttributeError:找不到词汇表。 在最后一行,我得到了错误。请告诉我正确的语法是什么。
我想要那样。
sents = ['A rose is a rose is a rose is a rose.',
'Oh, what a fine day it is.',
"It ain't over till it's over, I tell you!!"]
#sents turned into sparse vector of word frequency counts
sents_counts = foovec.fit_transform(sents)
#foovec now contains vocab dictionary which maps unique words to indexes
foovec.vocabulary_
这是此代码的输出: {'a':4,'玫瑰':14,'是':9,'。':3,'哦':12,',':2,'什么':17,'罚款':7,' day':6,'it':10,'ai':5,“not”:11,'over':13,'until':16,“s”:1,'i':8, '告诉':15,'你':18,'!':0}
答案 0 :(得分:2)
在fit_transform
上调用CountVectorizer
会返回一个数组,如documentation中所述。
vocabulary_
属性位于CountVectorizer
上。返回的数组没有vocabulary_
属性。
要在创建CountVectorizer
之后访问vocab = cv.vocabulary_
的词汇表,只需执行以下操作:
ConnectedList