我有一个相当大的数据集,大约有500,000个项目,每个项目都有<100个数字特征,并且有一个相关的分数。我试图弄清楚哪些功能或功能组合与更高的分数相关。例如,假设您具有以下数据集:
item#: feat1 | feat2 | feat3 | feat4 | feat5 | score
item1: 0 1 3 0 1 5
item2: 0 0 3 0 0 1
item3: 2 1 2 0 0 4
我想得出一个结论,即特征2和特征3中的> 0与更高的分数相关。当然,在很多情况下,我确定会有与高分相关的单个特征,但是在某些情况下,某些特征的组合对于获得高分是必不可少的,而我希望能够捕捉到这些特征组合。
我最初的想法是进行SVD,以尝试查看它是否会形成与更高分数相关的任何特征分组。但是我的主要问题是SVD是不受监督的,因此我实际上不能训练它来搜索与高分相关的特征组合。
对于任何类型的算法/机器学习工具可能对此类应用程序有用(最好是在python包中提供的机器学习工具,例如sklearn),我将不胜感激。