我的数据位于名为CspadeData.txt的文件中,它相当大(1100万行)。我是从google drive here链接的。
我正在尝试在cspade()
函数中使用此数据:
library(arulesSequences)
x <- read_baskets(con = "CspadeData.txt", info = c('sequenceID','eventID','SIZE'), sep = ' ')
s1 <- cspade(x, parameter = list(support = 0, maxsize = 1, maxlen = 1),
control = list(memsize = 65536, verbose = TRUE))
parameter specification:
support : 0
maxsize : 1
maxlen : 1
algorithmic control:
bfstype : FALSE
verbose : TRUE
summary : FALSE
tidLists : FALSE
memsize : 65536
preprocessing ...Error in makebin(data, file) : 'eid' invalid (strict order)
我知道这个错误告诉我我的eventID列没有按顺序排列。所以我执行了以下代码,通过sequenceID和eventID来订购我的数据。
data <- read.table(file = "CspadeData.txt", sep = " ", stringsAsFactors = FALSE)
str(data)
data <- data[order(data$V1,data$V2),]
write.table(data, file = "CspadeData.txt", sep = " ", row.names = FALSE, col.names = FALSE)
但是当我重新运行cspade()
功能时,我仍然会收到错误消息&#39; eid&#39;即使我按sequenceID
和eventID
订购了我的数据也无效。我的数据是否有其他问题导致此错误?