卡方检验是否具有独立性,其中一个数据列为整数,其他数据列为对象?

时间:2019-05-17 03:25:18

标签: python pandas chi-squared hypothesis-test statistical-test

我正在尝试对python中的独立性进行假设检验,但是我的一个数据列(财务)具有浮点数据类型,而另一列(性别)具有对象数据类型。

我创建了以下假设: 何:财政是性别独立的 哈:资金取决于性别

我尝试直接使用输入,但是出现以下错误: “无法将字符串转换为float:'female'”

import pandas      as pd
import numpy       as np
import scipy.stats as stats

test = np.array(df['Gender'],df['Finances'])
chi_sq_Stat, p_value, deg_freedom, exp_freq = stats.chi2_contingency(test)

print('Chi-square statistic %3.5f P value %1.6f Degrees of freedom %d' %(chi_sq_Stat, p_value,deg_freedom))

我期望一些P值可以验证我的假设。

我已附上数据集的图片

dataset

1 个答案:

答案 0 :(得分:0)

尝试将作为名义变量的性别映射到一组固定的数字,如下所示:

gender_mapping = {"male":1 ,"female":0}
df.Gender = df.Gender.map(gender_mapping)
df.head()
Gender  Finances
0   1   1
1   0   2
2   1   3
3   0   2
4   1   3