给定具有特征和分数的数据集,请确定哪些特征与高分最相关

时间:2019-07-17 21:07:35

标签: python machine-learning svd

我有一个相当大的数据集,大约有500,000个项目,每个项目都有<100个数字特征,并且有一个相关的分数。我试图弄清楚哪些功能或功能组合与更高的分数相关。例如,假设您具有以下数据集:

item#: feat1 | feat2 | feat3 | feat4 | feat5 | score
item1:   0       1       3       0       1       5
item2:   0       0       3       0       0       1
item3:   2       1       2       0       0       4

我想得出一个结论,即特征2和特征3中的> 0与更高的分数相关。当然,在很多情况下,我确定会有与高分相关的单个特征,但是在某些情况下,某些特征的组合对于获得高分是必不可少的,而我希望能够捕捉到这些特征组合。

我最初的想法是进行SVD​​,以尝试查看它是否会形成与更高分数相关的任何特征分组。但是我的主要问题是SVD是不受监督的,因此我实际上不能训练它来搜索与高分相关的特征组合。

对于任何类型的算法/机器学习工具可能对此类应用程序有用(最好是在python包中提供的机器学习工具,例如sklearn),我将不胜感激。

0 个答案:

没有答案