查找两个不同数据框中两个列之间的相关性

时间:2019-07-29 14:57:38

标签: python pandas correlation

我有两个数据框,每个数据框都有一个ID列,每个ID都有一个带时间戳的日期列和一个Value列。现在,我想以这种方式找到每个数据集的值之间的相关性:数据集1包含患有特定疾病的人的所有值,而数据集2中有DIDN未感染疾病的人的值。现在,使用corr函数:

    corr = df1['val'].corr(df2['val'])

我的结果是0.1472,并且非常低(太多),这意味着它们之间没有任何关联。 我在某件事上错了吗?如何计算相关性?有没有一种方法可以找到一种价值(也许是一条线),在该价值之后人们会患上疾病?我想使用机器学习技术(SVM)进行尝试,但是首先拥有类似我之前解释的部分会很好。我怎样才能做到这一点? 谢谢

1 个答案:

答案 0 :(得分:0)

可能您的相关性较低是由于观察的索引或顺序

您是否尝试过通过ID进行左联接?