使用arulesSequences包:makebin中的错误(数据,文件):'sid'无效

时间:2015-07-21 05:33:25

标签: r arules

我在R中使用arulesSequences包。文档对于read_baskets函数接收的数据类型来说太少了。我猜数据应该是文本(.txt)格式。列名是:“sequenceID”,“eventID”,“SIZE”和“items”。我的数据大约有200,000行,如下所示:z.txt文件:

1,1364,3,{12,17,19}
1,1130,4,{14,17,21,23}
1,1173,3,{19,23,9}
1,98,5,{14,15,2,21,5}
2,1878,4,{1,10,14,3}
2,1878,13,{1,12,14,15,16,17,18,19,2,21,24,25,5}
2,1878,1,{2}

我试图使用:

x <- read_baskets("z.txt", sep = ",",info =c("sequenceID","eventID","SIZE"))
s <- cspade(x,parameter = list(support = 0.001),control = list(verbose = 
TRUE),tmpdir = tempdir())

但是我收到了这个错误:

  

makebin(数据,文件)出错:'sid'无效

2 个答案:

答案 0 :(得分:0)

好的,我发现了问题,我发布的是以防有人遇到同样的问题。问题是SequenceID和eventID(第一列和第二列必须按块顺序排序。包中提到了这一点,但我只订购了第一列。

答案 1 :(得分:0)

sequenceID和eventID的组合必须唯一。

否则,您将得到以下错误之一:

  • makebin(数据,文件)中的错误:“ sid”无效
  • makebin(数据,文件)中的错误:“ eid”无效

这进一步意味着,.txt文件中的各项(按sequenceID,eventID组合)必须位于同一行,并且(可能)用与.txt文件其余部分相同的分隔符分隔。因此,项目列应为最后一列。

希望这会有所帮助!