我正在研究R编程中的数据挖掘,我正在使用RStudio。我的数据集如下所示:
我在某些地方使用'是''不'代替任何其他疾病名称只是为了检查它是否适用于'是'或'否'。
在这里您可以看到患者有不同的疾病/诊断。我正在尝试使用关联规则向我展示一个人与HTN一起遭受的疾病。我写了以下代码:
mytestdata <- read.csv("D:/Senior Thesis/Program/test.csv", header=T,
colClasses = "factor", sep = ",")
library(arules)
myrules <- apriori(mytestdata,
parameter = list(supp = 0.1, conf = 0.1, maxlen=10, minlen=2),
appearance = list(rhs=c("Disease.1=HTN")))
summary(myrules)
inspect(myrules)
但我在lhs
栏中没有得到任何疾病名称;您可以在下图中看到:
请帮助我,以便lhs显示与rhs相关的疾病的名称,即疾病.1 = HTN。
答案 0 :(得分:0)
您的代码将缺失值(例如excel表中的单元格E4)作为因子级别。在read.csv函数中指定NA值时,可以防止此行为。
mytestdata <- read.csv("D:/Senior Thesis/Program/test.csv", header=T,
colClasses = "factor", sep = ",", na.strings = "")
答案 1 :(得分:0)
如果您有更多数据,它会。只有3行满足你的rhs!
请注意,您执行获取Disease.2=yes
。
但我认为你想忽视疾病的秩序......