Chi square和z得分 - 选择哪一个?

时间:2014-11-25 05:40:49

标签: machine-learning classification recommendation-engine chi-squared

我在stat stack exchange发布了问题,但遗憾的是到目前为止还没有得到答案,所以我在这里克隆它并希望有人可以提供帮助。

我是机器学习的新手。最近我试图了解这方面的事情,并得到以下关注:

我有按类别分类的产品。我也有用户提供性别和设备型号信息。

首先,我进行了卡方检验以检查类别和性别+设备信息是否相关联。例如,我的p值是0.000012所以我说用户(性别+设备)与类别相关联。

因此,如果新用户带有他的性别(女性)+设备(iPhone):

  1. 作为卡方检验结果,性别+设备和类别之间应该存在关联。因此,我选择使用iPhone的女性消费的前10个类别。我有这个清单,例如[1。时尚,2。移动设备3.相机,4。家具,5。自行车等]

  2. 我还对类别进行了z测试(没有任何用户信息),并获得了列表(更高的z得分将位于顶部),例如[1。移动设备,2。自行车,3。时尚,4。笔记本电脑等。]

  3. 那么在这种情况下,我应该向该用户提供哪个列表?或任何组合它们的可能性?或者我做错了什么?

    提前致谢: - )

1 个答案:

答案 0 :(得分:0)

严格地说,没有一项测试是合适的。在两个测试中,您都有原假设(性别和模型与类别无关),并且您试图找到此假设错误的概率。然而,这两个测试是参数测试,即为了使结果正确,您必须知道概率遵循特定分布(分别为卡方和正态分布)。在您的情况下,您不能做出这样的假设,因此测试不合适。如果要使用显着性检验,则应使用非参数检验,最常见的是Wilcoxon和Friedman检验。但是,通常在问题解决后使用重要性测试来检查所获得的结果是否可以归结为运气。它们不是用来解决问题的。

如果要查找性别,模型和类别之间的相关性,则应使用某些相关系数,例如 Pearson相关组内相关。但是,您没有详细描述您的数据,因此我不确定您要实现的目标。仅基于性别和模型,您可以做的最安全和最简单的事情是返回使用iPhone的女性访问量最大的类别(出现次数)。