Question

我正在研究R编程中的数据挖掘，我正在使用RStudio。我的数据集如下所示：

我在某些地方使用'是''不'代替任何其他疾病名称只是为了检查它是否适用于'是'或'否'。

在这里您可以看到患者有不同的疾病/诊断。我正在尝试使用关联规则向我展示一个人与HTN一起遭受的疾病。我写了以下代码：

mytestdata <- read.csv("D:/Senior Thesis/Program/test.csv", header=T,
                       colClasses = "factor", sep = ",")


library(arules)

myrules <- apriori(mytestdata,
                   parameter = list(supp = 0.1, conf = 0.1, maxlen=10, minlen=2),
                   appearance = list(rhs=c("Disease.1=HTN")))

summary(myrules)
inspect(myrules)

但我在lhs栏中没有得到任何疾病名称;您可以在下图中看到：

请帮助我，以便lhs显示与rhs相关的疾病的名称，即疾病.1 = HTN。

Answer 1

您的代码将缺失值（例如excel表中的单元格E4）作为因子级别。在read.csv函数中指定NA值时，可以防止此行为。

mytestdata <- read.csv("D:/Senior Thesis/Program/test.csv", header=T,
                   colClasses = "factor", sep = ",", na.strings = "")

Answer 2

如果您有更多数据，它会。只有3行满足你的rhs！

请注意，您执行获取Disease.2=yes。

但我认为你想忽视疾病的秩序......

在r编程中查找用于数据挖掘的相关项

2 个答案: