如何在python中检索影响数据集结果的属性

时间:2017-11-21 03:17:10

标签: python machine-learning prediction feature-selection

我是初学者。我在做gpa预测。我的数据集有变量,如学生的旅行时间,学习时间,父母职业,成绩,母亲职业等。我可以检索影响学生gpa的属性吗?我的数据包含分类和离散值。

2 个答案:

答案 0 :(得分:0)

您可以在火车数据中使用python中的RandomForestRegressor来拟合模型。然后,您可以使用feature_importance_函数来查找每个功能的重要性。如果您对模型的解释力感兴趣,那么您还可以使用包treeinterpreter中的函数treeinterpreter。以下是两个链接(link1link2),可以更深入地了解treeinterpreter。

答案 1 :(得分:-1)

根据我对你的问题的理解,你想知道哪些特征对学生的最终GPA有更大的影响,这是正确的吗?如果是这种情况,一些机器学习算法具有此内置函数,该函数为您提供模型中使用的每个特征(系数)的特征重要性。例如,如果您使用Logistic回归,它有一个名为coef_的函数,这将导致所用特征的所有系数。可以找到有关coef_的更多信息here。另一种具有此内置函数的算法是随机森林。该算法包含一个名为feature_importance_的函数,它生成一个大小为n_features的数组。一般来说,特征重要性(越高,特征越重要)。有关feature_importance_功能的更多信息,请参见here