鉴于以下数据集,我想使用Python的统计库来显示哪个因素是最高值的最佳预测因子。
array = [{'region':'europe','fruit':'orange','value':1,'color':'orange'},{'region':'europe','fruit':'pineapple','value':1,'color':'brown'},{'region':'europe','fruit':'banana','value':1,'color':'yellow'},{'region':'america','fruit':'orange','value':5,'color':'orange'},{'region':'australia','fruit':'apple','value':6,'color':'red'},{'region':'asia','fruit':'apple','value':6,'color':'red'}]
以上是模拟数据,显示'欧洲'是高价值的最差预测因子,因为它总是与值1相关联,而Apple'是最好的预测因子,因为它始终与值6相关联。
我不确定如何利用python来使用scikit,numpy,pandas等。
我目前正在尝试通过查看每个键值对来使用chi-square tests(例如'地区':'欧洲''水果& #39;:' orange')并汇总其值并使用3.33作为预期值乘以实例数(因为所有值的总和为20且有6个项目)。我可以发布我的代码和错误,但我不确定是否可以使用卡方块。