适应R中的数据设置

时间:2014-10-21 23:07:58

标签: r matrix

我经常使用荷兰中央统计局(CBS)的数据。他们的数据在我看来并不是非常友好的。在我可以在地图上获取数据之前,我总是需要手动调整数据。这就是我的工作,我是地理信息科学家。

今天我开始编写脚本以便调整从CBS获得的数据并将其转换为我的数据文件。到目前为止,我一直在手动执行此操作。今天我记得为什么。我觉得很难处理这些数据。水平和因素经常困扰我。我不需要更多关于这方面的文献,我试图了解为什么以及何时出错。

我的数据看起来像:

municipality name         first data col    second data col    third data col    etc.
2004
2005
2006
2007
2008
othermunicipality name
2004
2005
2006
2007
2008
Etcetera

我想要的是:

              Municipality name                           Other municipality name
years         first data col    second data col    etc.   first data col    second data col    etc. 
2004
2005
2006
2007
2008

我理解我不能指望整个脚本作为回应。但我认为我现在需要朝着正确的方向发展。我应该如何处理这种情况?

甚至可以使用双列名称吗?一个市政府的名称,然后是数据本身的名称。

1 个答案:

答案 0 :(得分:0)

这个答案有点复制了我对上一个问题的回答。我在R中使用双列名称的方法是使用'reshape',它将按句点分隔名称。至于根据第1列解析数据以填充市政名称列,这显然是第一步,我可能会稍后重新开始,但我现在有点忙,这至少给你一个起点。

#example code
 a <- c(rep(1:10, 3))
 b <- c(rep("aa", 10), rep("bb", 10), rep("cc", 10))
 set.seed(123)
 c <- sample(seq(from = 20, to = 50, by = 5), size = 30, replace = TRUE)
 d <- data.frame(a,b, c)
 #how to rename it#
 e<-reshape(d,idvar='a',timevar='b',direction='wide')
 e