所以我有20个不同的名义分类变量,它们是自变量。这些变量中的每一个都分为2-10类。这些自变量是字符串类型,将用于预测称为价格的因变量,它是连续变量。
我该使用哪种算法来找到每个变量的相关性并确定最佳变量?
注意:我尚未建立机器学习模型,并且正在使用Python。
我已经尝试过sklearn的f_oneway方差分析,但找不到关联,而是仅在组本身之间进行比较。我发现自变量和因变量的连续变量之间具有相关性。非常感谢帮助
答案 0 :(得分:1)
我不确定sklearn,但也许这些信息会使您更进一步。 首先,当我们谈论分类数据时,我们不是在谈论关联,而是在谈论关联。
通常来说,您需要使用方差分析,卡方或类似方法来收集有关类别变量和连续变量之间的关联的信息。
使用ANOVA,我们可以计算组内和组内方差,然后进行比较。 看这篇文章,可能比我试图解释的要有意义的多: