距离和工作日列之间的Python Pandas关系

时间:2019-03-03 20:37:12

标签: python pandas data-science

我有一个包含距离和星期几列的数据集。 距离是双精度值,工作日是字符串。(星期一,星期二...)

我如何显示距离与工作日之间的关系?我需要检查距离是否在周末增加。

部分数据

enter image description here

没关系time_of_day列

 distance weekday
    1.498991 Monday
    5.122769 Thursday
    1.492705 Friday
    1.972825 Monday
    2.517838 Monday
    1.648552 Saturday
    2.503511 Thursday
    1.671742 Friday
    3.974399 Friday
    7.616923 Wednesday

1 个答案:

答案 0 :(得分:3)

鉴于您要确定工作日和周末之间的关系,应将它们分为两组。可以通过为工作日分配0和为周末分配1来实现。

要获得更可靠的结果,您需要更大的样本量,以确定周末和工作日之间是否存在重大关系。

一旦获得更大的数据集,就可以使用以下公式计算均值和相关性。

import pandas as pd
import numpy

d = ({             
   'Day' : ['Monday','Thursday','Friday','Monday','Monday','Saturday','Thursday','Friday','Friday','Wednesday'],                                                                      
   'Distance' : [1.498991,5.122769,1.492705,1.972825,2.517838,1.648552,2.503511,1.671742,3.974399,7.616923],                                                               
   'Group' : [0,0,0,0,0,1,0,0,0,0],                                                                              
    })

df = pd.DataFrame(data=d)

#The average distance for Weekdays
Weekday = df.loc[df['Day'] == 0]
Weekday_mean = Weekday['Distance'].mean()

#The average distance for Weekends
Weekend = df.loc[df['Day'] == 1]
Weekend_mean = Weekend['Distance'].mean()

#Correlation between Weekends and Weekdays
corr = (numpy.corrcoef(df['Distance'],df['Day']))

print(corr)

[[ 1.         -0.23640194]
 [-0.23640194  1.        ]]

目前这是一种消极的关系,因为周末只有一个值。