我有两个数据框,每个数据框都有一个ID列,每个ID都有一个带时间戳的日期列和一个Value列。现在,我想以这种方式找到每个数据集的值之间的相关性:数据集1包含患有特定疾病的人的所有值,而数据集2中有DIDN未感染疾病的人的值。现在,使用corr函数:
corr = df1['val'].corr(df2['val'])
我的结果是0.1472,并且非常低(太多),这意味着它们之间没有任何关联。 我在某件事上错了吗?如何计算相关性?有没有一种方法可以找到一种价值(也许是一条线),在该价值之后人们会患上疾病?我想使用机器学习技术(SVM)进行尝试,但是首先拥有类似我之前解释的部分会很好。我怎样才能做到这一点? 谢谢
答案 0 :(得分:0)
可能您的相关性较低是由于观察的索引或顺序
您是否尝试过通过ID进行左联接?