Question

我有一个相当大的数据集，大约有500,000个项目，每个项目都有<100个数字特征，并且有一个相关的分数。我试图弄清楚哪些功能或功能组合与更高的分数相关。例如，假设您具有以下数据集：

item#: feat1 | feat2 | feat3 | feat4 | feat5 | score
item1:   0       1       3       0       1       5
item2:   0       0       3       0       0       1
item3:   2       1       2       0       0       4

我想得出一个结论，即特征2和特征3中的> 0与更高的分数相关。当然，在很多情况下，我确定会有与高分相关的单个特征，但是在某些情况下，某些特征的组合对于获得高分是必不可少的，而我希望能够捕捉到这些特征组合。

我最初的想法是进行SVD，以尝试查看它是否会形成与更高分数相关的任何特征分组。但是我的主要问题是SVD是不受监督的，因此我实际上不能训练它来搜索与高分相关的特征组合。

对于任何类型的算法/机器学习工具可能对此类应用程序有用（最好是在python包中提供的机器学习工具，例如sklearn），我将不胜感激。

给定具有特征和分数的数据集，请确定哪些特征与高分最相关

0 个答案: