我正在检查isp提供商对使用scipy.stats.chi2_contingency
的广告点击的影响
我有一个pd.df,其中包含约3500万个包含约3500个isp_providers的事务,并且在所有事务结束时-单击0/1。
不管这是否影响点击-我想用Chi2 Test证明这一点。当我尝试将这2列放入上述方法中时,我得到了
TypeError: '<' not supported between instances of 'str' and 'int'
现在,我已使用索引将isp转换为索引并避免了这种情况,但是由于某种原因,我获得了10倍的自由度(从31000改为3500)
包含字符串(3500 DOF,但TypeError):
X2, p ,DOF, expected = stats.chi2_contingency(table[['user_isp','click']])
具有编码(31000 DOF没有TypeError-但这会大大改变结果):
le = LabelEncoder()
table['isp_index'] = le.fit_transform(table['user_isp'])
X2, p ,DOF, expected = stats.chi2_contingency(table[['isp_index','click']])
请帮助