Question

我经常使用荷兰中央统计局（CBS）的数据。他们的数据在我看来并不是非常友好的。在我可以在地图上获取数据之前，我总是需要手动调整数据。这就是我的工作，我是地理信息科学家。

今天我开始编写脚本以便调整从CBS获得的数据并将其转换为我的数据文件。到目前为止，我一直在手动执行此操作。今天我记得为什么。我觉得很难处理这些数据。水平和因素经常困扰我。我不需要更多关于这方面的文献，我试图了解为什么以及何时出错。

我的数据看起来像：

municipality name         first data col    second data col    third data col    etc.
2004
2005
2006
2007
2008
othermunicipality name
2004
2005
2006
2007
2008
Etcetera

我想要的是：

              Municipality name                           Other municipality name
years         first data col    second data col    etc.   first data col    second data col    etc. 
2004
2005
2006
2007
2008

我理解我不能指望整个脚本作为回应。但我认为我现在需要朝着正确的方向发展。我应该如何处理这种情况？

甚至可以使用双列名称吗？一个市政府的名称，然后是数据本身的名称。

Answer 1

这个答案有点复制了我对上一个问题的回答。我在R中使用双列名称的方法是使用'reshape'，它将按句点分隔名称。至于根据第1列解析数据以填充市政名称列，这显然是第一步，我可能会稍后重新开始，但我现在有点忙，这至少给你一个起点。

#example code
 a <- c(rep(1:10, 3))
 b <- c(rep("aa", 10), rep("bb", 10), rep("cc", 10))
 set.seed(123)
 c <- sample(seq(from = 20, to = 50, by = 5), size = 30, replace = TRUE)
 d <- data.frame(a,b, c)
 #how to rename it#
 e<-reshape(d,idvar='a',timevar='b',direction='wide')
 e

适应R中的数据设置

1 个答案: