如何优化关联分析以使规则有意义?

时间:2015-09-23 17:40:27

标签: r model-associations apriori

我有一个客户数据集,我想定义一个频繁的标准,画出一个理想客户的图片。 数据集包含以下字段:

  • 电子邮件
  • 全名
  • 工作(职称)
  • 公司网站域名
  • 公司描述(字符串数据)
  • 公司成立(年)
  • 公司员工(编号)
  • 公司城市
  • 公司州
  • 公司国家
  • linkedin群组跟随
  • 创建
  • 更新

除公司员工,公司成立,创建和更新外,没有数字数据。数据集还有其他有用的数据,如年龄(间隔)和性别,但它有太多的缺失值,因此我将其删除以用于分析目的。

我在R:

中运行了代码
data1 <- read.csv("final_account_list.csv")

library(arules)

str(data1)

data1$Company.Founded <- factor(data1$Company.Founded)

rules1 <- apriori(data1)

rules1

inspect(rules1)

options(digits=2)
inspect(rules1[1:5])

我得到了59条规则的清单,但它们没有多大意义。例如,
{Company.Employees = 500} =&gt; {Company.Country USA}提升1.176,置信度= 0.083,支持率= 0.109

大多数客户拥有500名员工并且在美国的事实并没有带来太多价值。如何使我的分析更有意义?
例如,如何找到标题,地理位置(城市,州)和linkedin群组的关联?

1 个答案:

答案 0 :(得分:0)

最重要的部分是根据右侧(rhs)和/或左侧(rhs来定义“有意义的规则”对您意味着什么)。

然后,如apriori包的文档中所述,您可以调查您的规则。

为您的例子

  

如何找到... linkedin群组的关联

你可以使用

# find rules with "linkedin groups followed" in right-hand-side
rulesLinkedIn = subset(rules1, subset = rhs %in% "linkedin groups followed"))
# inspect rules with highest confidence 
inspect(head(sort(rulesLinkedIn, by="confidence")), n=3)