假设我有data.table
这些列
nodeID
hour1aaa
hour1bbb
hour1ccc
hour2aaa
hour2bbb
hour2ccc
...
hour24aaa
hour24bbb
hour24ccc
共72列。我们称之为rawtable
我想重新塑造它,所以我有
nodeID
hour
aaa
bbb
ccc
总共只有这5列
其中小时列将包含原始72应该是的小时。
我们称之为newshape
我现在这样做的方法是使用rbindlist
和24个项目,其中每个项目都是较大data.table的正确子集。像这样(除了我在我的例子中大部分时间都没有留下)
newshape<-rbindlist(list(
rawtable[,list(nodeID, Hour=1, aaa=hour1aaa, bbb=hour1bbb, ccc=hour1ccc)],
rawtable[,list(nodeID, Hour=2, aaa=hour2aaa, bbb=hour2bbb, ccc=hour2ccc)],
rawtable[,list(nodeID, Hour=24, aaa=hour24aaa, bbb=hour24bbb, ccc=hour24ccc)]))
以下是一些与
一起使用的示例数据rawtable<-data.table(nodeID=c(1,2),hour1aaa=c(12.4,32),hour1bbb=c(61.1,65.33),hour1ccc=c(-4.2,54),hour2aaa=c(12.2,1.2),hour2bbb=c(12.2,5.7),hour2ccc=c(5.6,101.9),hour24aaa=c(45.2,8.5),hour24bbb=c(23,7.9),hour24ccc=c(98,32.3))
使用我的rbindlist
方法可以获得理想的结果,但是,就像我使用R做的大多数事情一样,可能有更好的方法。通过更好,我的意思是更高的内存效率,更快,和/或使用更少的代码行。有没有人有更好的方法来实现这个目标?
答案 0 :(得分:3)
如果你在预期的标准约定中得到你的名字,这是一个经典的reshape
问题,尽管我不确定这是否真正利用了data.table
结构的效率:
reshape(
setNames(rawtable, gsub("(\\D+)(\\d+)(\\D+)", "\\3.\\2", names(rawtable))),
idvar="nodeID", direction="long", varying=-1
)
结果:
nodeID hour aaa bbb ccc
1: 1 1 12.4 61.10 -4.2
2: 2 1 32.0 65.33 54.0
3: 1 2 12.2 12.20 5.6
4: 2 2 1.2 5.70 101.9
5: 1 24 45.2 23.00 98.0
6: 2 24 8.5 7.90 32.3
@Arun
在此处回答:https://stackoverflow.com/a/15510828/496803如果您可以根据当前数据进行调整,也可能会有用。
答案 1 :(得分:2)
一种选择是使用我的包“splitstackshape”中的merged.stack
。此函数,stack
列的列,然后将输出合并在一起。由于函数如何创建“时间”变量,您可以指定要从列名中删除的内容。在这种情况下,我们要删除“小时”,“aaa”,“bbb”和“ccc”,并且只剩下剩余的数字。
library(splitstackshape)
## Make sure you're using at least 1.2.0
packageVersion("splitstackshape")
# [1] ‘1.2.0’
merged.stack(rawtable, id.vars="nodeID",
var.stubs=c("aaa", "bbb", "ccc"),
sep="hour|aaa|bbb|ccc")
# nodeID .time_1 aaa bbb ccc
# 1: 1 1 12.4 61.10 -4.2
# 2: 1 2 12.2 12.20 5.6
# 3: 1 24 45.2 23.00 98.0
# 4: 2 1 32.0 65.33 54.0
# 5: 2 2 1.2 5.70 101.9
# 6: 2 24 8.5 7.90 32.3