分类器predict_proba仅返回1和0

时间:2017-10-18 21:56:53

标签: machine-learning scikit-learn tf-idf

我正在尝试为包含文本字段(描述)的数据集构建MultiLabelClassification模型。 对于文本字段,我使用TfIdfVectorizer并为每个单词创建一列。即使在阻止和使用停用词之后,我也有数千行(对于每个文本字段,我创建了一个新的TfIdfVectorizer) 由于拥有如此多的列,使用DecisionTreeClassifier模型,我的predict_proba函数只返回1&0; s和0' s作为概率分数。 我构建向量的代码部分如下

descVectorizer = TfidfVectorizer(analyzer='word', lowercase=False, max_df=0.95, stop_words=stop)
temp = list(descVectorizer.fit_transform(data['description']).toarray())
textData = pandas.DataFrame(temp, columns=descVectorizer.get_feature_names(), index=data.index)
temp=None
print(3)
nameVectorizer = TfidfVectorizer(analyzer='word', lowercase=False, use_idf=False, stop_words=stop)
temp2 = list(descVectorizer.transform(data['name']).toarray())
nameData = pandas.DataFrame(temp2, columns=descVectorizer.get_feature_names(), index=data.index)
temp2=None

稍后,我将nameData和textData附加到实际数据框

我无法想出减少列数的方法,欢迎任何有关处理文本字段的建议 提前致谢

0 个答案:

没有答案