计算字符串列之间的相关性

时间:2018-07-09 08:55:35

标签: python string pandas correlation

我有一个包含专栏专业和媒体的df。我想计算这两列之间的相关性。

计算字符串列之间的相关性是否简短?还是我已将每个专业和媒体转换为一个数字,然后使用.corr()计算相关性?

我发现了类似的问题(Is there a way to get correlation with string data and a numerical value in pandas?),但我想检查字符串,而不是字符串中的每个单词。

df

  profession        media      

0 media lawyer      print
1 student           online
2 student           print
3 professor         online
4 media lawyer      online

1 个答案:

答案 0 :(得分:5)

您可以将数据类型转换为分类类型,然后执行

df['profession']=df['profession'].astype('category').cat.codes
df['media']=df['media'].astype('category').cat.codes
df.corr()