Question

鉴于以下数据集，我想使用Python的统计库来显示哪个因素是最高值的最佳预测因子。

array = [{'region':'europe','fruit':'orange','value':1,'color':'orange'},{'region':'europe','fruit':'pineapple','value':1,'color':'brown'},{'region':'europe','fruit':'banana','value':1,'color':'yellow'},{'region':'america','fruit':'orange','value':5,'color':'orange'},{'region':'australia','fruit':'apple','value':6,'color':'red'},{'region':'asia','fruit':'apple','value':6,'color':'red'}]

以上是模拟数据，显示＆＃39;欧洲＆＃39;是高价值的最差预测因子，因为它总是与值1相关联，而Apple＆＃39;是最好的预测因子，因为它始终与值6相关联。

我不确定如何利用python来使用scikit，numpy，pandas等。

我目前正在尝试通过查看每个键值对来使用chi-square tests（例如＆＃39;地区＆＃39;：＆＃39;欧洲＆＃39;＆＃39;水果＆＃39;：＆＃39; orange＆＃39;）并汇总其值并使用3.33作为预期值乘以实例数（因为所有值的总和为20且有6个项目）。我可以发布我的代码和错误，但我不确定是否可以使用卡方块。

如何使用python确定给定数组的属性的最佳预测器？

0 个答案: