我正在使用数据集"成人"。 http://archive.ics.uci.edu/ml/datasets/Adult 我已经使用apriori检索了频繁的规则并通过电梯对它们进行了分类。
library(arules)
trans = read.transactions("adult.data", format = "basket", sep = ",", rm.duplicates = TRUE)
rules <- apriori(trans)
rules.lift <- sort(rules, decreasing = TRUE, by="lift")
执行时
inspect(head(rules.lift,100))
我获得以下内容:
lhs rhs support confidence lift
1 { 13,
Male,
United-States} => { Bachelors} 0.1024507 0.9976077 6.066125
2 { 0,
13,
Male,
United-States} => { Bachelors} 0.1024507 0.9976077 6.066125
ETC
例如,在规则中:
{ 0,
13,
Male,
United-States} => { Bachelors}
我如何知道0
和13
属于哪个属性?我已经查看了数据集的描述和数据本身,所以我猜13
是education-num而0
是资本损失,但有时两个或多个属性可以相同范围所以我不知道如何区分它们。
>class(rules.lift)
[1] "rules"
attr(,"package")
[1] "arules"
我在这里读到:How could we know the ColumnName /attribute of items generated in Rules问题是我还没有对数据进行预处理。那么,我该怎么做呢?
非常感谢!