在r编程中查找用于数据挖掘的相关项

时间:2018-04-10 18:18:34

标签: r data-mining

我正在研究R编程中的数据挖掘,我正在使用RStudio。我的数据集如下所示:

This is an example of a dataset of medical data

我在某些地方使用'是''不'代替任何其他疾病名称只是为了检查它是否适用于'是'或'否'。

在这里您可以看到患者有不同的疾病/诊断。我正在尝试使用关联规则向我展示一个人与HTN一起遭受的疾病。我写了以下代码:

mytestdata <- read.csv("D:/Senior Thesis/Program/test.csv", header=T,
                       colClasses = "factor", sep = ",")


library(arules)

myrules <- apriori(mytestdata,
                   parameter = list(supp = 0.1, conf = 0.1, maxlen=10, minlen=2),
                   appearance = list(rhs=c("Disease.1=HTN")))

summary(myrules)
inspect(myrules)

但我在lhs栏中没有得到任何疾病名称;您可以在下图中看到:

The results shown

请帮助我,以便lhs显示与rhs相关的疾病的名称,即疾病.1 = HTN。

2 个答案:

答案 0 :(得分:0)

您的代码将缺失值(例如excel表中的单元格E4)作为因子级别。在read.csv函数中指定NA值时,可以防止此行为。

mytestdata <- read.csv("D:/Senior Thesis/Program/test.csv", header=T,
                   colClasses = "factor", sep = ",", na.strings = "")

答案 1 :(得分:0)

如果您有更多数据,它会。只有3行满足你的rhs!

请注意,您执行获取Disease.2=yes

但我认为你想忽视疾病的秩序......