我有一个二进制分类的文本数据,其中有10个文本特征。
我使用了词袋,TFIDF等各种技术将其转换为数字。
我使用 hstack()将所有这些功能在处理后再次堆叠在一起。
将它们转换为数字特征之后,每个特征现在都有大量列,因此转换后,我的数据集大约有3000列。
我的问题是,当我将此数据集放入决策树分类器(sklearn)中时,分类器如何识别属于特定要素的列?
例如,在3000列中的前51列属于US_states单词袋。
现在,DT如何识别它?
PS:处理之前的数据在pandas数据框中。
经过处理后,它是一个堆叠的numpy数组,正在分类器中输入。
答案 0 :(得分:0)
决策树无法识别属性来自哪些功能。