我有一个带有数字,MCQ-Single Response和MCQ-Multiple Response的问卷数据集。共有22列。数据集看起来像这样:
Age ChooseTransport WillgobyTrain ....
52 1011001 2
21 1000100 1
25 1110000 1
46 0001000 -1
32 1000001 2
'年龄'是一个数值变量。 ' ChooseTransport'是MCQ-具有7种选择的多重响应,其中1表示用户已选择该选项,0表示未选择。 ' WillgobyTrain'是MCQ-Single Response并且有选择号。
我想找到正确的方法来找出这些不同类型的变量之间的相关性。
答案 0 :(得分:2)
首先,您应该将ChooseTransport
拆分为7个colunms,然后尝试使用data.corr()
(如果您的数据是pandas.DataFrame
)。
要拆分ChooseTransport
,请尝试以下操作:
for row_index, answer in enumerate(data['ChooseTransport']):
for i in range(7):
name = 'ChooseTransport_' + str(i)
data.loc[row_index, name] = int(answer[i])
然后删除旧列ChooseTransport
:
data.drop(columns=['ChooseTransport'], inplace=True)
最后使用data.corr()
:
data.corr()
对于可视化使用seaborn
:
import seaborn as sns
sns.heatmap(data.corr())