Question

我在R工作，有一个类似于以下

的数据集

[1, 2, 3, ""]
[1, 2, "", 4]
[1,"", "", ""]

我正在将这些值读入事务对象，然后将它们传递给eclat或apriori以进行频繁的项目集评估。当我的频繁项目集如下所示时出现问题：

{1,""}
{2,3,""}

我想从计算中删除这些行，因为我认为它会减慢处理速度，从预测的角度来看也没有任何意义。你能帮忙吗？我的R代码如下。

tr <- read.transactions("Items.csv", rm.duplicates=TRUE, format="basket",sep=",")

dataset1 <- as.vector(t(dataset1))

frequentItems <- eclat (tr, parameter = list(supp = 0.03, minlen=2, maxlen = 4)) 

inspect(frequentItems)

谢谢，马特

Answer 1

你遇到的问题归结为arules认为“”是一个项目。因此，如果您不想这样，则必须先从数据中删除所有这些值。可能的罪魁祸首是原始的csv文件。它包含空字段，并且它们被转换为""项。

因此，摆脱这种情况的最佳方法是确保您的csv文件实际上具有正确的格式。它应该是这样的：

item1, item2
item1
item2, item3

而不是这个

"item1", "item2"
"item1", ""
"item2", "item3"

要解决代码中的问题，请先转换为列表：

thelist <- as(tr, "list")

thelist <- lapply(thelist, function(i){
  i[i != ""]
})

trnew <- as(thelist, "transactions")

向您展示如何运作的示例：

library(arules)
# Example data
a_list <- list(
  c("item1","item2"),
  c("item1",""),
  c("item2","item3"),
  c("","item3")
  )

tr <- as(a_list, "transactions")

frequentItems <- eclat (tr, parameter = list(supp = 0.03, minlen=2, maxlen = 4)) 
inspect(frequentItems)

#>    items         support
#>[1] {item2,item3} 0.25   
#>[2] {,item3}      0.25   
#>[3] {,item1}      0.25   
#>[4] {item1,item2} 0.25   

# Conversion
thelist <- as(tr, "list")
thelist <- lapply(thelist, function(i){
  i[i != ""]
})
trnew <- as(thelist, "transactions")

frequentItems <- eclat (trnew, parameter = list(supp = 0.03, minlen=2, maxlen = 4))
inspect(frequentItems)

#>    items         support
#>[1] {item2,item3} 0.25   
#>[2] {item1,item2} 0.25

在评估eclat和apriori项集时，删除具有空值的行

1 个答案: