Scipy.stats.chi2_contengency不适用于字符串

时间:2018-12-21 22:09:18

标签: python scipy statistics chi-squared

我正在检查isp提供商对使用scipy.stats.chi2_contingency的广告点击的影响

我有一个pd.df,其中包含约3500万个包含约3500个isp_providers的事务,并且在所有事务结束时-单击0/1。

不管这是否影响点击-我想用Chi2 Test证明这一点。当我尝试将这2列放入上述方法中时,我得到了

TypeError: '<' not supported between instances of 'str' and 'int'

现在,我已使用索引将isp转换为索引并避免了这种情况,但是由于某种原因,我获得了10倍的自由度(从31000改为3500)

包含字符串(3500 DOF,但TypeError):

X2, p ,DOF, expected = stats.chi2_contingency(table[['user_isp','click']]) 

具有编码(31000 DOF没有TypeError-但这会大大改变结果):

le = LabelEncoder()
table['isp_index'] = le.fit_transform(table['user_isp'])
X2, p ,DOF, expected = stats.chi2_contingency(table[['isp_index','click']]) 

请帮助

0 个答案:

没有答案