我想找到两个词之间的相关性; 滥用评论的可能性和每个帖子的评论数 其中,滥用评论的概率是每个帖子的滥用评论/每个帖子的总评论。
我的数据包含instagram,其中有50位用户的所有帖子及其评论。
因此,我使用.corr()方法(皮尔逊的相关性): 这两个术语都不在我的专栏中。 因此,我计算了每个用户的每个帖子的概率。我将为新表使用corr方法。 我无法验证找到相关性的正确方法。
然后我将使用以下代码:
data = df[['Probability of abusive comments','Number of comments']]
correlation = data.corr(method='pearson')
答案 0 :(得分:1)
在不查看样本输入数据的情况下,了解您要执行的操作有点棘手。但是以下内容应该能够适合您的数据:
import pandas as pd
d = ({
'X' : [1,4,5,6],
'Y' : [2,5,5,5],
})
df = pd.DataFrame(data=d)
correlation = df['X'].corr(df['Y'])
print(correlation)
0.925820099773