如何确定用于回归或分类的特征?

时间:2019-07-08 18:22:13

标签: python machine-learning scikit-learn

我正在使用CSV文件,该文件具有12列。十列是要素,两列代表结果。我使用Python的scikit-learn lib建立了一些回归和分类模型。

我发现准确度会根据我使用的功能以及使用的参数数量而有所不同。

是否有方法确定要用于回归或分类的特征,是否有方法找出适合我的模型的最佳参数?

这是我编写的简单代码,它具有3个功能和一个结果,即如何确定要使用的最佳功能(最好使用'par_1''par_2'还是仅使用{ {1}},'par_2''par_1''par_3''和'par_2 ...),有没有办法获得最佳功能列表?

'par_3'

这是一种获取我应该使用的功能列表的方法吗?

1 个答案:

答案 0 :(得分:2)

如果通过参数表示功能比许多选项要多。

  1. 特征消除:Sklearn为此提供了几种方法。该模型会自动删除不提供相关信息的功能。有几种方法,因此请选择最适合您的方法。

  2. 特征减少:您可以在其中使用PCA或SVD,从特征中提取重要信息并减少特征。在PCA中,您将失去原始功能。

  3. 特征选择/关联测试:这是一种手动测试方法,您可以使用各种关联测试将特征关联到输出列,并相应地选择特征。

如果按参数表示模型超参数,则在sklearn的文档中搜索GridSearchCV