我在R
中当前的数据帧只有两列,即经度和纬度。大约有1500条记录(行),其中包括很多重复项。
数据帧的摘录如下所示:
longitude latitude
57.408999 -20.208104
57.667991 -20.13641
57.539122 -20.103416
57.502332 -20.124798
57.414653 -20.261872
57.65949 -20.126768
57.468383 -20.223031
57.754464 -20.25823
57.754464 -20.25823
57.680745 -20.121893
57.65949 -20.179457
57.669408 -20.177538
57.702715 -20.211515
我想将此数据帧转换为以下格式:
longitude latitude emp emp2
57.408999 -20.208104 1 0.1
57.667991 -20.13641 11 1.1
57.539122 -20.103416 16 1.6
57.502332 -20.124798 10 1
57.414653 -20.261872 1 0.1
57.65949 -20.126768 2 0.2
57.468383 -20.223031 17 1.7
57.754464 -20.25823 9 0.9
57.754464 -20.25823 13 1.3
57.680745 -20.121893 13 1.3
57.65949 -20.179457 4 0.4
57.669408 -20.177538 3 0.3
57.702715 -20.211515 1 0.1
emp
将是一个新列,它是每个经度和纬度的频率。这样,我的数据框现在将仅具有唯一的经度和纬度及其各自的计数。
emp2
只是emp
的值除以10
可以用R完成吗?如果是,将不胜感激。
由于我是R的新手,所以对于从哪里开始解决该问题感到困惑。
答案 0 :(得分:2)
使用dplyr
的简单方法是
library(dplyr)
df %>%
group_by(longitude, latitude) %>%
summarise(emp = n(),
emp2 = emp/10)
答案 1 :(得分:1)
使用base R
的替代aggregate
解决方案。
attach(df)
df <- aggregate(df, by=list(longitude, latitude), FUN=length)
colnames(df) <- c('longitude', 'latitude', 'emp', 'emp2')
df$emp2 <- df$emp2 / 10