Question

我正在尝试此链接中的答案： How to find ngram frequency of a column in a pandas dataframe?

我得到正确的结果。

但是在我自己的数据中，我得到了错误的结果：

我的数据包含2个“喜欢说”的实例：

would like say got excellent
adult like say stylish reading

但是在使用计数矢量化器时

word_vectorizer = CountVectorizer(ngram_range=(2,2),analyzer='word')
sparse_matrix = word_vectorizer.fit_transform(data_copy['2018-1-1']['comment'])
frequencies = sum(sparse_matrix).data
df_count=pd.DataFrame(frequencies, index=word_vectorizer.get_feature_names(), columns=['frequency'])

我得到的结果是340个“喜欢说”的实例。

所有双字母组频率都是错误的

Answer 1

已解决。更改了这一行：

printAllSets size
  printRows size 1

printRows size start
  print "{"
  printRow start size
  print "}"
  print CRLF
  if start <= size
    printRows size (start + 1)

printRow start limit
  if start <= limit
    print start + SPACE
    printRow start (limit - 1)

收件人：

sum(sparse_matrix).data

我不知道是什么原因

Count向量化器结果错误

1 个答案: