在将供应商数据集与目标数据集进行比较时,要运行哪种类型的统计信息

时间:2017-11-03 14:16:33

标签: google-analytics statistics linear-regression regression-testing

我的老板让我比较我们订阅的广告服务器和需求方平台之间的网络点击数据,看看这些数据与Google Analytics会话的比较情况。令人担忧的是,广告服务器对点击次数进行了过度计算,而广告服务器则表示需求方平台的点击次数不足。我能够根据合作伙伴名称加入来自广告服务器,需求方平台和Google Analytics的数据集。只有13个连接。我一直在寻找确定两个数据集与Google之间准确性的最佳方法,其中Google是目标变量,供应商是预测变量。这是通过Pearson系数的线性回归吗?

1 个答案:

答案 0 :(得分:0)

有许多统计测试可以确定分布是否有显着差异。您可以查看t检验:https://docs.scipy.org/doc/scipy-0.19.1/reference/generated/scipy.stats.ttest_ind.html

或Mann-Whitney U测试: https://docs.scipy.org/doc/scipy-0.19.1/reference/generated/scipy.stats.mannwhitneyu.html

如果观察的数量特别少,或者您认为分布是正态分布的,那么您可以使用t检验。否则,尝试Mann-Whitney U测试。