如何找到数值,分类(MCQ-Single Response)和(MCQ-Multiple Response)之间的相关性?

时间:2018-03-04 09:00:48

标签: python machine-learning correlation categorical-data

我有一个带有数字,MCQ-Single Response和MCQ-Multiple Response的问卷数据集。共有22列。数据集看起来像这样:

Age    ChooseTransport   WillgobyTrain  ....
52      1011001                 2
21      1000100                 1
25      1110000                 1
46      0001000                -1
32      1000001                 2

'年龄'是一个数值变量。 ' ChooseTransport'是MCQ-具有7种选择的多重响应,其中1表示用户已选择该选项,0表示未选择。 ' WillgobyTrain'是MCQ-Single Response并且有选择号。

我想找到正确的方法来找出这些不同类型的变量之间的相关性。

1 个答案:

答案 0 :(得分:2)

首先,您应该将ChooseTransport拆分为7个colunms,然后尝试使用data.corr()(如果您的数据是pandas.DataFrame)。

要拆分ChooseTransport,请尝试以下操作:

for row_index, answer in enumerate(data['ChooseTransport']):
    for i in range(7):
        name = 'ChooseTransport_' + str(i)
        data.loc[row_index, name] = int(answer[i])

然后删除旧列ChooseTransport

data.drop(columns=['ChooseTransport'], inplace=True)

最后使用data.corr()

data.corr()  

对于可视化使用seaborn

import seaborn as sns
sns.heatmap(data.corr())