Question

我正在使用movie_reviews数据并在其中使用countvectorizer。我想在字典中更改它以显示索引中的唯一单词，如下所示：

from sklearn.feature_extraction.text import CountVectorizer
import nltk
cv = CountVectorizer(tokenizer=nltk.word_tokenize , stop_words='english')
movie_train_cv = cv.fit_transform(movie_train.data)

movie_train_cv.vocabulary_

AttributeError：找不到词汇表。在最后一行，我得到了错误。请告诉我正确的语法是什么。

我想要那样。

sents = ['A rose is a rose is a rose is a rose.',
     'Oh, what a fine day it is.',
    "It ain't over till it's over, I tell you!!"]

  #sents turned into sparse vector of word frequency counts
  sents_counts = foovec.fit_transform(sents)
  #foovec now contains vocab dictionary which maps unique words to indexes
  foovec.vocabulary_

这是此代码的输出： {'a'：4，'玫瑰'：14，'是'：9，'。'：3，'哦'：12，'，'：2，'什么'：17，'罚款'：7，' day'：6，'it'：10，'ai'：5，“not”：11，'over'：13，'until'：16，“s”：1，'i'：8， '告诉'：15，'你'：18，'！'：0}

Answer 1

在fit_transform上调用CountVectorizer会返回一个数组，如documentation中所述。

vocabulary_属性位于CountVectorizer上。返回的数组没有vocabulary_属性。

要在创建CountVectorizer之后访问vocab = cv.vocabulary_的词汇表，只需执行以下操作：

ConnectedList

AttributeError：找不到词汇表

1 个答案: