我正在尝试建立一个新的数据集进行分析,需要从原始数据集中删除所有非零重要特征。
我的数据集经过预处理后的形状为(61176,13047)。
我发现所有功能的功能重要性如下:
clf_features = DecisionTreeClassifier(min_samples_split=2,class_weight = 'balanced')
clf_features.fit(x_trn_tfidf, y_train)
我已经了解了numpy数组中所有功能的功能重要性。
现在,我需要删除所有非零的重要特征(例如,小于0.001的值)并创建一个新的数据集。
有人可以建议如何做吗?