Python-Numpy相关性测试

时间:2018-12-18 14:01:12

标签: python pandas numpy scipy data-analysis

我正在尝试分析世界杯数据,我想在比赛开始的时间和进球数之间建立关联。我希望这表明一段时间可能会产生更多目标。

我的数据集在一个csv文件中,并包含以下标题和1行数据作为示例:

enter image description here

我正在尝试用python编写相关性测试,但是遇到了一些问题。

我的问题:如何证明/否定比赛的时间与进球数之间的相关性?

import pandas as pd
from scipy import stats
import numpy as np

#Read the data into a dataframe
df = pd.read_csv("World Cup 2018.csv")

index2 = df.loc[df['start_time']]
print(index2['home_score'])

Test = numpy.corrcoef(index2.start_time, index2.home_score)[0, 1]
print(Test)

1 个答案:

答案 0 :(得分:0)

您是否尝试过熊猫关联功能?

df.corr()[['start_time']].sort_values('start_time')

它将为您提供数据框中每一列的一组值,以及与start_time相关的值: home_team -0.123456 away_team -0.789012 home_score -0.890123 away_score -0.901234 分数越高,两个值似乎越相关。虽然这不是一个硬性规定,但大于+0.8的相关性是很强的关系