关联规则挖掘对每个属性具有大量值的分类数据

时间:2015-01-12 18:03:19

标签: machine-learning data-mining apriori

我正在努力处理数据集的关联规则挖掘,数据集有很多二进制属性,但也有很多分类属性。将分类转换为二进制在理论上是可行的但不实用。我正在寻找一种技术来克服这个问题。

汽车规格的数据示例,执行关联规则挖掘,汽车颜色属性应该是二进制,在颜色的情况下,我们有很多颜色要转移到二进制(我的数据集是保险声称和它比这个例子更糟糕。)

1 个答案:

答案 0 :(得分:1)

关联规则挖掘不使用"属性"。它处理市场篮子类型的数据。 将它预处理为二进制属性没有意义。因为您需要再次将二进制属性转换为项目(最坏的情况是,您可以将" color = blue"项目转换为" color_red = 0,color_black = 0,... color_blue = 1"如果你也在寻找否定规则。

不幸的是,不同的算法 - 理论上相同的算法的不同实现 - 将以非常不同的方式扩展。

APRIORI旨在很好地适应交易数量,但对于支持度最低的不同项目数量不是很好;特别是如果您希望短项目集只是频繁的。其他算法如Eclat和FP-Growth可能会好得多。但是YMMV。

首先,尝试将数据集转换为市场购物篮格式,方式是认为每个项目都是相关的。放弃其他一切。然后从最低支持开始,直到开始获得结果。使用过低的最低支持可能会耗尽内存,或者可能需要很长时间。

此外,请确保获得良好的实施。许多声称是APRIORI的东西只有它的一半,而且非常慢。