我的DataFrame df如下所示:
User_ID;Latitude;Longitude;Datetime
222583401;41.4020375;2.1478710;2014-07-06 20:49:20
287280509;41.3671346;2.0793115;2013-01-30 09:25:47
329757763;41.5453577;2.1175164;2012-09-25 08:40:59
189757330;41.5844998;2.5621569;2013-10-01 11:55:20
624921653;41.5931846;2.3030671;2013-07-09 20:12:20
414673119;41.5550136;2.0965829;2014-02-24 20:15:30
414673119;41.5550136;2.0975829;2014-02-24 20:16:30
414673119;41.5550136;2.0985829;2014-02-24 20:17:30
它包含有关用户的信息。空间(纬度和经度)和时间(日期时间)位置。所有用户都显示一个时空位置,但是最后一个414673119,可以通过时间和地点的三个样本移动来跟踪。我想评估一个参数,例如用户"速度"。我想使用应用于纬度/经度列的pandas函数,这些函数与欧几里德距离的两点之间的最短距离有关。 在第一步移动期间将Lat1和Lat2调用空间中的不同位置(Lon和Datetime相同),我可以评估:
distance_1_2 = math.sqrt((Lat2-Lat1)**2 + (Lon2-Lon1)**2)
time_1_2 = Datetime2 - Datetime1
然后:
speed_1_2 = distance_1_2/time_1_2
到目前为止,我按User_ID对DataFrame进行了排序和分组,以检测多个(和连续)动作:
# Track User Movements in Space and Time - Sort Information
track = df.sort(['User_ID','Datetime'])
# MultiIndex --> Index on 'User_ID'
grouped = track.groupby(['User_ID'])
现在问题是访问有关空间和时间的组信息,并过滤speed
参数高于或低于某个值的用户。
非常感谢您的帮助。
答案 0 :(得分:1)
你已经完成了大部分工作。以下是一些可能有所帮助的调整。
要计算系列中相邻值之间的差异,请使用diff
方法。因此,例如,Lat2-Lat1
将成为grp['Lat'].diff()
。
dist = np.sqrt(grp['Latitude'].diff()**2 + grp['Longitude'].diff()**2)
如果Datetime
列的格式为datetime64[ns]
,则两个日期df['Datetime'].diff()
之间的差异将为timedelta64[ns]
。要将距离(浮点数)除以timedelta64[ns]
,首先需要将timedelta64[ns]
转换为浮点数。要将其转换为秒数,请除以np.timedelta64(1, 's')
:
time = grp['Datetime'].diff() / np.timedelta64(1, 's')
您不需要按['User_ID','Datetime']
排序。 groupby
方法适用于未排序的数据。所以跳过排序然后调用
grouped = df.groupby(['User_ID'], group_keys=False)
import numpy as np
import pandas as pd
def speed(grp):
dist = np.sqrt(grp['Latitude'].diff()**2 + grp['Longitude'].diff()**2)
time = grp['Datetime'].diff() / np.timedelta64(1, 's')
result = dist/time
return result
df = pd.read_table('data', sep=';', parse_dates=[3])
grouped = df.groupby(['User_ID'], group_keys=False)
spd = grouped.apply(speed)
mask = spd > 1e-6
print(df.loc[mask])
产量
User_ID Latitude Longitude Datetime
6 414673119 41.555014 2.097583 2014-02-24 20:16:30
7 414673119 41.555014 2.098583 2014-02-24 20:17:30