Pandas将功能应用于组,并过滤​​原始数据帧

时间:2017-04-08 01:09:38

标签: python pandas dataframe group-by split-apply-combine

我有一个包含对象及其坐标的DataFrame:

      id        lat         lng
0   3816  18.384001  -66.114799
1   5922  20.766100 -156.434998
2   1527  21.291394 -157.843085
3   1419  21.291394 -157.843085
4   1651  21.291394 -157.843085

多个对象可以具有相同的坐标。数据框很大(数百万条记录)。我有一个坐标为(target_lat, target_lng)的目标点。我的目标是尽可能有效地在数据框中找到目标点X英里范围内的对象。

我正在使用haversine_np改编自this question的功能。它需要参数(lat_series, lng_series, lat, lng)并有效地计算lat_series, lng_series(两个系列)和(lat, lng)(两个数字)之间的所有距离。

现在我的问题是如何使用它来过滤距离并选择原始数据框中的对象。

这是我目前的解决方案:

grouper = df.groupby(['lat', 'lng'], sort=False).grouper
lat_series = grouper.result_index.get_level_values(0)  # lats of unique (lat, lng) pairs
lng_series = grouper.result_index.get_level_values(1)  # lngs of unique (lat, lng) pairs
df['location_index'] = grouper.group_info[0]  # assign index of group back to df
distances = haversine_np(lat_series, lng_series, target_lat, target_lng)
mask = distances <= 50  # let's say 50 miles; boolean mask of size = ngroups
loc_indexes = pd.Series(range(grouper.ngroups))[mask]  # select group indexes by mask
df[df.location_index.isin(loc_indexes)]  # select original records by group indexes

它似乎有效,虽然看起来不可靠,因为当我使用pd.Series(range(grouper.ngroups))[mask]选择相关的组索引时,我假设分组的级别值自然被索引(从0到ngroups-1) )。换句话说,我依赖于i-th中的grouper.result_index.get_level_values()元素与i中标签为grouper.group_info[0]的组相对应的事实。我无法找到更明确的方法来获得该映射。

问题:

  1. 我使用的方法是否可靠?
  2. 是否有更好的(更安全/更简洁/更有效)的方法?

2 个答案:

答案 0 :(得分:1)

更新: @DennisGolomazov has found out that this "prefiltering" is not going to work properly for longitudes and make a very good example - 这是一个小型演示:

In [115]: df
Out[115]:
     id   lat    lng
5  4444  40.0 -121.0
0  1111  40.0 -120.0

In [116]: %paste
threshold = 60
max_lng_factor = 69.17
max_lat_factor = 69.41
target_lat, target_lng = 40, -120
mask = df.lat.sub(target_lat).abs().le(threshold/max_lat_factor) \
       & \
       df.lng.sub(target_lng).abs().le(threshold/max_lng_factor)
x = df.loc[mask, ['lat','lng']].drop_duplicates()
## -- End pasted text --

In [117]: x
Out[117]:
    lat    lng
0  40.0 -120.0

这两个坐标之间的距离小于我们的阈值(60英里):

In [119]: haversine_np(-120, 40, -121, 40)
Out[119]: 52.895043596886239

结论:我们可以预先过滤纬度,但不能预测经度:

In [131]: df
Out[131]:
     id   lat    lng
5  4444  40.0 -121.0
0  1111  40.0 -120.0
1  2222  42.0 -121.0

纠正预过滤:

In [132]: mask = df.lat.sub(target_lat).abs().le(threshold/max_lat_factor)
     ...: x = df.loc[mask, ['lat','lng']].drop_duplicates()
     ...:

In [133]: x
Out[133]:
    lat    lng
5  40.0 -121.0
0  40.0 -120.0

检查:

In [135]: df.reset_index() \
     ...:   .merge(x.assign(distance=haversine_np(x.lng, x.lat, target_lng, target_lat))
     ...:           .query("distance <= @threshold"),
     ...:          on=['lat','lng'])
     ...:
Out[135]:
   index    id   lat    lng   distance
0      5  4444  40.0 -121.0  52.895044
1      0  1111  40.0 -120.0   0.000000

旧的,部分错误的答案:

我会尝试进行预过滤以优化计算。 例如,您可以轻松过滤掉“您感兴趣的矩形”之外的点。

演示:

threshold = 100

# http://gis.stackexchange.com/questions/142326/calculating-longitude-length-in-miles/142327#142327
max_lng_factor = 69.17
max_lat_factor = 69.41

target_lat, target_lng = 21.29, -157.84

mask = df.lat.sub(target_lat).abs().le(threshold/max_lat_factor) \
       & \
       df.lng.sub(target_lng).abs().le(threshold/max_lng_factor)

x = df.loc[mask, ['lat','lng']].drop_duplicates()

df.reset_index() \
  .merge(x.assign(distance=haversine_np(x.lng, x.lat, target_lng, target_lat))
          .query("distance <= @threshold"),
         on=['lat','lng']) \
  .drop('distance',1) \
  .set_index('index')

结果:

In [142]: df.reset_index() \
     ...:   .merge(x.assign(distance=haversine_np(x.lng, x.lat, target_lng, target_lat))
     ...:           .query("distance <= @threshold"),
     ...:          on=['lat','lng']) \
     ...:   .drop('distance',1) \
     ...:   .set_index('index')
     ...:
Out[142]:
         id        lat         lng
index
1      5922  20.766100 -156.434998
2      1527  21.291394 -157.843085
3      1419  21.291394 -157.843085
4      1651  21.291394 -157.843085

答案 1 :(得分:0)

也许我对效率缺失了一些东西,但我不明白你为什么要使用.grouper方法。 要使Lat和Long系列只引用它们,即df ['lat']或df.lat,那么你可以用

直接计算距离
mask = distances <= 50

并使用

创建一个遮罩
df[mask]

现在,掩码已编入索引到数据帧。

extern crate cursive;

use cursive::Cursive;
use cursive::views::{SelectView, Dialog};
use cursive::align::HAlign;

fn main() {
    let mut time_select = SelectView::new().h_align(HAlign::Center);
    time_select.add_item("Short", 1);
    time_select.add_item("Medium", 5);
    time_select.add_item("Long", 10);

    let mut siv = Cursive::new();
    siv.add_layer(Dialog::around(time_select).title("How long is your wait?"));
    siv.run();
}

将仅提供True元素。