我在R中使用arulesSequences
包。文档对于read_baskets
函数接收的数据类型来说太少了。我猜数据应该是文本(.txt)格式。列名是:“sequenceID”,“eventID”,“SIZE”和“items”。我的数据大约有200,000行,如下所示:z.txt文件:
1,1364,3,{12,17,19}
1,1130,4,{14,17,21,23}
1,1173,3,{19,23,9}
1,98,5,{14,15,2,21,5}
2,1878,4,{1,10,14,3}
2,1878,13,{1,12,14,15,16,17,18,19,2,21,24,25,5}
2,1878,1,{2}
我试图使用:
x <- read_baskets("z.txt", sep = ",",info =c("sequenceID","eventID","SIZE"))
s <- cspade(x,parameter = list(support = 0.001),control = list(verbose =
TRUE),tmpdir = tempdir())
但是我收到了这个错误:
makebin(数据,文件)出错:'sid'无效
答案 0 :(得分:0)
好的,我发现了问题,我发布的是以防有人遇到同样的问题。问题是SequenceID和eventID(第一列和第二列必须按块顺序排序。包中提到了这一点,但我只订购了第一列。
答案 1 :(得分:0)
sequenceID和eventID的组合必须唯一。
否则,您将得到以下错误之一:
这进一步意味着,.txt文件中的各项(按sequenceID,eventID组合)必须位于同一行,并且(可能)用与.txt文件其余部分相同的分隔符分隔。因此,项目列应为最后一列。
希望这会有所帮助!