我有一个客户数据集,我想定义一个频繁的标准,画出一个理想客户的图片。 数据集包含以下字段:
除公司员工,公司成立,创建和更新外,没有数字数据。数据集还有其他有用的数据,如年龄(间隔)和性别,但它有太多的缺失值,因此我将其删除以用于分析目的。
我在R:
中运行了代码data1 <- read.csv("final_account_list.csv")
library(arules)
str(data1)
data1$Company.Founded <- factor(data1$Company.Founded)
rules1 <- apriori(data1)
rules1
inspect(rules1)
options(digits=2)
inspect(rules1[1:5])
我得到了59条规则的清单,但它们没有多大意义。例如,
{Company.Employees = 500} =&gt; {Company.Country USA}提升1.176,置信度= 0.083,支持率= 0.109
大多数客户拥有500名员工并且在美国的事实并没有带来太多价值。如何使我的分析更有意义?
例如,如何找到标题,地理位置(城市,州)和linkedin群组的关联?
答案 0 :(得分:0)
最重要的部分是根据右侧(rhs
)和/或左侧(rhs
来定义“有意义的规则”对您意味着什么)。
然后,如apriori
包的文档中所述,您可以调查您的规则。
为您的例子
如何找到... linkedin群组的关联
你可以使用
# find rules with "linkedin groups followed" in right-hand-side
rulesLinkedIn = subset(rules1, subset = rhs %in% "linkedin groups followed"))
# inspect rules with highest confidence
inspect(head(sort(rulesLinkedIn, by="confidence")), n=3)