我正在尝试此链接中的答案: How to find ngram frequency of a column in a pandas dataframe?
我得到正确的结果。
但是在我自己的数据中,我得到了错误的结果:
我的数据包含2个“喜欢说”的实例:
would like say got excellent
adult like say stylish reading
但是在使用计数矢量化器时
word_vectorizer = CountVectorizer(ngram_range=(2,2),analyzer='word')
sparse_matrix = word_vectorizer.fit_transform(data_copy['2018-1-1']['comment'])
frequencies = sum(sparse_matrix).data
df_count=pd.DataFrame(frequencies, index=word_vectorizer.get_feature_names(), columns=['frequency'])
我得到的结果是340个“喜欢说”的实例。
所有双字母组频率都是错误的
答案 0 :(得分:-1)
已解决。 更改了这一行:
printAllSets size
printRows size 1
printRows size start
print "{"
printRow start size
print "}"
print CRLF
if start <= size
printRows size (start + 1)
printRow start limit
if start <= limit
print start + SPACE
printRow start (limit - 1)
收件人:
sum(sparse_matrix).data
我不知道是什么原因