Count向量化器结果错误

时间:2018-10-28 17:33:13

标签: python scikit-learn nltk countvectorizer

我正在尝试此链接中的答案: How to find ngram frequency of a column in a pandas dataframe?

我得到正确的结果。

但是在我自己的数据中,我得到了错误的结果:

我的数据包含2个“喜欢说”的实例:

would like say got excellent
adult like say stylish reading

但是在使用计数矢量化器时

word_vectorizer = CountVectorizer(ngram_range=(2,2),analyzer='word')
sparse_matrix = word_vectorizer.fit_transform(data_copy['2018-1-1']['comment'])
frequencies = sum(sparse_matrix).data
df_count=pd.DataFrame(frequencies, index=word_vectorizer.get_feature_names(), columns=['frequency'])

我得到的结果是340个“喜欢说”的实例。

所有双字母组频率都是错误的

1 个答案:

答案 0 :(得分:-1)

已解决。 更改了这一行:

printAllSets size
  printRows size 1

printRows size start
  print "{"
  printRow start size
  print "}"
  print CRLF
  if start <= size
    printRows size (start + 1)

printRow start limit
  if start <= limit
    print start + SPACE
    printRow start (limit - 1)

收件人:

sum(sparse_matrix).data

我不知道是什么原因