我有一个数据框,其中一列是文本。我想使用tfidf矢量化器对其进行转换。下面的代码,其中文本列为complaint
tfidf = TfidfVectorizer(sublinear_tf=True, min_df=5,ngram_range=(1, 2), stop_words='english')
complain_features = tfidf.fit_transform(df.complaint.values.astype('str')).toarray()
当我打印complain_features
时,它将输出全零。所以当我转换为pandas数据框时,全为NaN
array([[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
...,
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.]])
有人可以建议我在这里想念什么吗?