我经常使用荷兰中央统计局(CBS)的数据。他们的数据在我看来并不是非常友好的。在我可以在地图上获取数据之前,我总是需要手动调整数据。这就是我的工作,我是地理信息科学家。
今天我开始编写脚本以便调整从CBS获得的数据并将其转换为我的数据文件。到目前为止,我一直在手动执行此操作。今天我记得为什么。我觉得很难处理这些数据。水平和因素经常困扰我。我不需要更多关于这方面的文献,我试图了解为什么以及何时出错。
我的数据看起来像:
municipality name first data col second data col third data col etc.
2004
2005
2006
2007
2008
othermunicipality name
2004
2005
2006
2007
2008
Etcetera
我想要的是:
Municipality name Other municipality name
years first data col second data col etc. first data col second data col etc.
2004
2005
2006
2007
2008
我理解我不能指望整个脚本作为回应。但我认为我现在需要朝着正确的方向发展。我应该如何处理这种情况?
甚至可以使用双列名称吗?一个市政府的名称,然后是数据本身的名称。
答案 0 :(得分:0)
这个答案有点复制了我对上一个问题的回答。我在R中使用双列名称的方法是使用'reshape',它将按句点分隔名称。至于根据第1列解析数据以填充市政名称列,这显然是第一步,我可能会稍后重新开始,但我现在有点忙,这至少给你一个起点。
#example code
a <- c(rep(1:10, 3))
b <- c(rep("aa", 10), rep("bb", 10), rep("cc", 10))
set.seed(123)
c <- sample(seq(from = 20, to = 50, by = 5), size = 30, replace = TRUE)
d <- data.frame(a,b, c)
#how to rename it#
e<-reshape(d,idvar='a',timevar='b',direction='wide')
e