您可以在火车数据中使用python中的RandomForestRegressor
来拟合模型。然后,您可以使用feature_importance_
函数来查找每个功能的重要性。如果您对模型的解释力感兴趣,那么您还可以使用包treeinterpreter
中的函数treeinterpreter
。以下是两个链接(link1,link2),可以更深入地了解treeinterpreter。
根据我对你的问题的理解,你想知道哪些特征对学生的最终GPA有更大的影响,这是正确的吗?如果是这种情况,一些机器学习算法具有此内置函数,该函数为您提供模型中使用的每个特征(系数)的特征重要性。例如,如果您使用Logistic回归,它有一个名为coef_
的函数,这将导致所用特征的所有系数。可以找到有关coef_
的更多信息here。另一种具有此内置函数的算法是随机森林。该算法包含一个名为feature_importance_
的函数,它生成一个大小为n_features的数组。一般来说,特征重要性(越高,特征越重要)。有关feature_importance_
功能的更多信息,请参见here。