我正在使用CSV文件,该文件具有12列。十列是要素,两列代表结果。我使用Python的scikit-learn lib建立了一些回归和分类模型。
我发现准确度会根据我使用的功能以及使用的参数数量而有所不同。
是否有方法确定要用于回归或分类的特征,是否有方法找出适合我的模型的最佳参数?
这是我编写的简单代码,它具有3个功能和一个结果,即如何确定要使用的最佳功能(最好使用'par_1'
和'par_2'
还是仅使用{ {1}},'par_2'
和'par_1'
,'par_3'
'和'par_2
...),有没有办法获得最佳功能列表?
'par_3'
这是一种获取我应该使用的功能列表的方法吗?
答案 0 :(得分:2)
如果通过参数表示功能比许多选项要多。
特征消除:Sklearn为此提供了几种方法。该模型会自动删除不提供相关信息的功能。有几种方法,因此请选择最适合您的方法。
特征减少:您可以在其中使用PCA或SVD,从特征中提取重要信息并减少特征。在PCA中,您将失去原始功能。
特征选择/关联测试:这是一种手动测试方法,您可以使用各种关联测试将特征关联到输出列,并相应地选择特征。
如果按参数表示模型超参数,则在sklearn的文档中搜索GridSearchCV
。