决策树如何识别给定文本数据集中的特征?

时间:2019-09-24 11:39:43

标签: machine-learning scikit-learn data-science decision-tree python-textprocessing

我有一个二进制分类的文本数据,其中有10个文本特征。

我使用了词袋,TFIDF等各种技术将其转换为数字。

我使用 hstack()将所有这些功能在处理后再次堆叠在一起。

将它们转换为数字特征之后,每个特征现在都有大量列,因此转换后,我的数据集大约有3000列。

我的问题是,当我将此数据集放入决策树分类器(sklearn)中时,分类器如何识别属于特定要素的列?

例如,在3000列中的前51列属于US_states单词袋。

现在,DT如何识别它?

PS:处理之前的数据在pandas数据框中。

经过处理后,它是一个堆叠的numpy数组,正在分类器中输入。

1 个答案:

答案 0 :(得分:0)

决策树无法识别属性来自哪些功能。