应用错误收集

决策树如何识别给定文本数据集中的特征？

时间：2019-09-24 11:39:43

标签： machine-learning scikit-learn data-science decision-tree python-textprocessing

我有一个二进制分类的文本数据，其中有10个文本特征。

我使用了词袋，TFIDF等各种技术将其转换为数字。

我使用 hstack（）将所有这些功能在处理后再次堆叠在一起。

将它们转换为数字特征之后，每个特征现在都有大量列，因此转换后，我的数据集大约有3000列。

我的问题是，当我将此数据集放入决策树分类器（sklearn）中时，分类器如何识别属于特定要素的列？

例如，在3000列中的前51列属于US_states单词袋。

现在，DT如何识别它？

PS：处理之前的数据在pandas数据框中。

经过处理后，它是一个堆叠的numpy数组，正在分类器中输入。

1 个答案:

答案 0 :(得分：0)

决策树无法识别属性来自哪些功能。