我正在尝试分析世界杯数据,我想在比赛开始的时间和进球数之间建立关联。我希望这表明一段时间可能会产生更多目标。
我的数据集在一个csv文件中,并包含以下标题和1行数据作为示例:
我正在尝试用python编写相关性测试,但是遇到了一些问题。
我的问题:如何证明/否定比赛的时间与进球数之间的相关性?
import pandas as pd
from scipy import stats
import numpy as np
#Read the data into a dataframe
df = pd.read_csv("World Cup 2018.csv")
index2 = df.loc[df['start_time']]
print(index2['home_score'])
Test = numpy.corrcoef(index2.start_time, index2.home_score)[0, 1]
print(Test)
答案 0 :(得分:0)
您是否尝试过熊猫关联功能?
df.corr()[['start_time']].sort_values('start_time')
它将为您提供数据框中每一列的一组值,以及与start_time相关的值:
home_team -0.123456
away_team -0.789012
home_score -0.890123
away_score -0.901234
分数越高,两个值似乎越相关。虽然这不是一个硬性规定,但大于+0.8的相关性是很强的关系