我需要计算具有经度和纬度变量的空间数据的平均位置。该操作需要按组完成,这使事情变得有些复杂。我已经能够通过简单的加权均值来做到这一点(下面的示例),但是更复杂的度量并不那么容易实现。
示例数据:
df <- data.frame(longitude = c(22, 23, 24, 25, 26, 27),
latitude = c(56, 57, 58, 59, 60, 61),
weight = c(1, 2, 3, 1, 2, 3),
group = c("A", "A", "A", "B", "B", "B"))
简单的加权均值:
dfMean <- df %>%
group_by(group) %>%
summarize_at(vars(longitude, latitude), list(~weighted.mean(., weight))) %>%
ungroup
我想使用函数geopshere::geomean
进行计算。问题在于该函数的输出是一个两列矩阵,与dplyr::summarize
不兼容。关于如何有效实现这一目标的任何建议?
答案 0 :(得分:3)
一种方法是按组嵌套数据,然后使用map()
遍历已分组的数据。
library(geosphere)
library(tidyverse)
df %>%
nest(-group) %>%
mutate(gmean = map(data, ~data.frame(geomean(xy = cbind(.x$longitude, .x$latitude), w = .x$weight)))) %>%
unnest(gmean)
# A tibble: 2 x 4
group data x y
<fct> <list> <dbl> <dbl>
1 A <tibble [3 x 3]> 23.3 57.3
2 B <tibble [3 x 3]> 26.3 60.3
或使用summarise
进行相同操作:
df %>%
group_by(group) %>%
summarise(gmean = list(data.frame(geomean(cbind(longitude, latitude), w = weight)))) %>%
unnest(gmean)
答案 1 :(得分:1)
一种选择是将geomean
中的值放入逗号分隔的字符串中,然后separate
将其放入不同的列中。
library(dplyr)
library(tidyr)
library(geosphere)
df %>%
group_by(group) %>%
summarise(val = toString(geomean(cbind(longitude, latitude), weight))) %>%
separate(val, c("cord1", "cord2"), sep = ",") %>%
mutate_at(2:3, as.numeric)
# A tibble: 2 x 3
# group cord1 cord2
# <fct> <dbl> <dbl>
#1 A 23.3 57.3
#2 B 26.3 60.3