如何使用pandas

时间:2017-07-13 14:47:41

标签: python pandas interpolation

我有一个pandas数据框,其中包含日期时间字段,ID字段以及纬度和经度列。它描述了一段时间内的移动点:

         Date                               ID           Lat       Lon
2017-07-03 00:03:43  f2d8c21d593adcb5423127923d63c7b3  39.90459 -75.12544
2017-07-03 00:06:49  f2d8c21d593adcb5423127923d63c7b3  39.91282 -75.17551
2017-07-03 00:09:56  f2d8c21d593adcb5423127923d63c7b3  39.93888 -75.19702
2017-07-03 00:13:03  f2d8c21d593adcb5423127923d63c7b3  39.96759 -75.18911
2017-07-03 00:16:09  f2d8c21d593adcb5423127923d63c7b3  40.00141 -75.19462

我的数据框有多个ID,每个ID描述一个不同的对象。我想要做的就是每个ID,填补“差距”。在日期字段中,通过为每秒添加行,以及lat长点移动的位置的插值,假设它随着乌鸦在点之间飞行而移动(并且不考虑地球的曲率)

到目前为止我所拥有的是:

idlist = df['ID'].unique() #create list of all ids
for x in idlist:
    temp = df.loc[df['ID']==x] #iterate of smaller sub-dataframe for each ID
    temp['Date'] = pd.to_datetime(temp['Date'])
    mindate = temp['Date'].min()
    maxdate = temp['Date'].max()
    idx = pd.date_range(mindate, maxdate,freq='s') #create new second index
    temp = temp.set_index('Date')
    temp = temp.reindex(idx, fill_value=0)
    temp.loc[temp['ID']==0, 'TripID'] = x
    print(temp)
    break

这让我成为那里的一部分。

                                             TripID       Lat       Lon
2017-07-03 00:03:43  f2d8c21d593adcb5423127923d63c7b3  39.90459 -75.12544
2017-07-03 00:03:44  f2d8c21d593adcb5423127923d63c7b3   0.00000   0.00000
2017-07-03 00:03:45  f2d8c21d593adcb5423127923d63c7b3   0.00000   0.00000
2017-07-03 00:03:46  f2d8c21d593adcb5423127923d63c7b3   0.00000   0.00000
2017-07-03 00:03:47  f2d8c21d593adcb5423127923d63c7b3   0.00000   0.00000
...
2017-07-03 00:16:08  f2d8c21d593adcb5423127923d63c7b3   0.00000   0.00000
2017-07-03 00:16:09  f2d8c21d593adcb5423127923d63c7b3  40.00141 -75.19462

我需要弄清楚如何填充它们等于0的Lat和Lon位置,这样ID似乎在我有数据的点之间的直线上移动。

这是我不确定的部分。任何见解都会有所帮助 一旦我知道如何做到这一点,我就可以将所有已完成的临时数据帧附加到输出中。

1 个答案:

答案 0 :(得分:-1)

我相信您正在寻找方法.ffill()。要准备数据,您必须将data['Lat']data['Lon']上的值设置为NA,以便值可以向前填充。

data.loc[data['Lat'] == 0, 'Lat'] = None
data.loc[data['Lon'] == 0, 'Lon'] = None #fill NA where equal to zero

data['Lat'] = data['Lat'].ffill()
data['Lon'] = data['Lon'].ffill() #conversly, data['Lon'].fillna(method = 'ffill') should work

这应该给出所需的输出 - 如果我误解了这个问题,请发表评论。有关pandas API,请参阅https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html