我有一个包含距离和星期几列的数据集。 距离是双精度值,工作日是字符串。(星期一,星期二...)
我如何显示距离与工作日之间的关系?我需要检查距离是否在周末增加。
部分数据
没关系time_of_day列
distance weekday
1.498991 Monday
5.122769 Thursday
1.492705 Friday
1.972825 Monday
2.517838 Monday
1.648552 Saturday
2.503511 Thursday
1.671742 Friday
3.974399 Friday
7.616923 Wednesday
答案 0 :(得分:3)
鉴于您要确定工作日和周末之间的关系,应将它们分为两组。可以通过为工作日分配0和为周末分配1来实现。
要获得更可靠的结果,您需要更大的样本量,以确定周末和工作日之间是否存在重大关系。
一旦获得更大的数据集,就可以使用以下公式计算均值和相关性。
import pandas as pd
import numpy
d = ({
'Day' : ['Monday','Thursday','Friday','Monday','Monday','Saturday','Thursday','Friday','Friday','Wednesday'],
'Distance' : [1.498991,5.122769,1.492705,1.972825,2.517838,1.648552,2.503511,1.671742,3.974399,7.616923],
'Group' : [0,0,0,0,0,1,0,0,0,0],
})
df = pd.DataFrame(data=d)
#The average distance for Weekdays
Weekday = df.loc[df['Day'] == 0]
Weekday_mean = Weekday['Distance'].mean()
#The average distance for Weekends
Weekend = df.loc[df['Day'] == 1]
Weekend_mean = Weekend['Distance'].mean()
#Correlation between Weekends and Weekdays
corr = (numpy.corrcoef(df['Distance'],df['Day']))
print(corr)
[[ 1. -0.23640194]
[-0.23640194 1. ]]
目前这是一种消极的关系,因为周末只有一个值。