AttributeError:找不到词汇表

时间:2018-04-18 18:46:23

标签: python scikit-learn

我正在使用movie_reviews数据并在其中使用countvectorizer。我想在字典中更改它以显示索引中的唯一单词,如下所示:

from sklearn.feature_extraction.text import CountVectorizer
import nltk
cv = CountVectorizer(tokenizer=nltk.word_tokenize , stop_words='english')
movie_train_cv = cv.fit_transform(movie_train.data)

movie_train_cv.vocabulary_

AttributeError:找不到词汇表。 在最后一行,我得到了错误。请告诉我正确的语法是什么。

我想要那样。

sents = ['A rose is a rose is a rose is a rose.',
     'Oh, what a fine day it is.',
    "It ain't over till it's over, I tell you!!"]

  #sents turned into sparse vector of word frequency counts
  sents_counts = foovec.fit_transform(sents)
  #foovec now contains vocab dictionary which maps unique words to indexes
  foovec.vocabulary_

这是此代码的输出: {'a':4,'玫瑰':14,'是':9,'。':3,'哦':12,',':2,'什么':17,'罚款':7,' day':6,'it':10,'ai':5,“not”:11,'over':13,'until':16,“s”:1,'i':8, '告诉':15,'你':18,'!':0}

1 个答案:

答案 0 :(得分:2)

fit_transform上调用CountVectorizer会返回一个数组,如documentation中所述。

vocabulary_属性位于CountVectorizer上。返回的数组没有vocabulary_属性。

要在创建CountVectorizer之后访问vocab = cv.vocabulary_ 的词汇表,只需执行以下操作:

ConnectedList