Question

我正在尝试为包含文本字段（描述）的数据集构建MultiLabelClassification模型。对于文本字段，我使用TfIdfVectorizer并为每个单词创建一列。即使在阻止和使用停用词之后，我也有数千行（对于每个文本字段，我创建了一个新的TfIdfVectorizer）由于拥有如此多的列，使用DecisionTreeClassifier模型，我的predict_proba函数只返回1＆0; s和0＆＃39; s作为概率分数。我构建向量的代码部分如下

descVectorizer = TfidfVectorizer(analyzer='word', lowercase=False, max_df=0.95, stop_words=stop)
temp = list(descVectorizer.fit_transform(data['description']).toarray())
textData = pandas.DataFrame(temp, columns=descVectorizer.get_feature_names(), index=data.index)
temp=None
print(3)
nameVectorizer = TfidfVectorizer(analyzer='word', lowercase=False, use_idf=False, stop_words=stop)
temp2 = list(descVectorizer.transform(data['name']).toarray())
nameData = pandas.DataFrame(temp2, columns=descVectorizer.get_feature_names(), index=data.index)
temp2=None

稍后，我将nameData和textData附加到实际数据框

我无法想出减少列数的方法，欢迎任何有关处理文本字段的建议提前致谢

分类器predict_proba仅返回1和0

0 个答案: