两个数据之间的相关性

时间:2019-06-24 18:43:34

标签: python pandas correlation

我想找到两个词之间的相关性; 滥用评论的可能性和每个帖子的评论数 其中,滥用评论的概率是每个帖子的滥用评论/每个帖子的总评论。

我的数据包含instagram,其中有50位用户的所有帖子及其评论。

因此,我使用.corr()方法(皮尔逊的相关性): 这两个术语都不在我的专栏中。 因此,我计算了每个用户的每个帖子的概率。我将为新表使用corr方法。 我无法验证找到相关性的正确方法。

然后我将使用以下代码:

data = df[['Probability of abusive comments','Number of comments']]

correlation = data.corr(method='pearson')

1 个答案:

答案 0 :(得分:1)

在不查看样本输入数据的情况下,了解您要执行的操作有点棘手。但是以下内容应该能够适合您的数据:

import pandas as pd

d = ({
    'X' :    [1,4,5,6],
    'Y' :    [2,5,5,5],
})

df = pd.DataFrame(data=d)

correlation = df['X'].corr(df['Y'])
print(correlation) 

0.925820099773