我试图在R中使用arules
包找到关联规则。我正在使用csv文件来创建事务对象。我收到了错误的项目集。
这就是数据的样子
137,lidocaine
138,pregabalin
139,esomeprazole,nadolol,atorvastatin
140,hydromorphone
141,ondansetron,enoxaparin,metoclopramide
142,fluticasone
143,trandolapril,amlodipine,fluticasone,esomeprazole
144,meloxicam
145,lidocaine
146,atorvastatin
147,fluticasone
here is the R code I am using
library("arules")
txn <- read.transactions("basket.csv", rm.duplicates= TRUE,format="basket",sep=",",cols =1);
txn@itemInfo
The item list I am getting has repeated items
labels
1 amlodipine
2 atorvastatin"
3 enoxaparin
4 esomeprazole
5 esomeprazole"
6 fluticasone
7 fluticasone"
8 hydromorphone"
9 lidocaine"
10 meloxicam"
11 metoclopramide"
12 nadolol
13 ondansetron
14 pregabalin"
15 trandolapril
如果你看第4项和第5项,它们是相同的,但由于引号而被处理不同,第6项和第7项的情况类似。
有没有办法解决这个或任何原因导致这种情况发生?
答案 0 :(得分:0)
我不熟悉R工具,但我是AI学生,我对关联规则了解不多。
我认为它与您的数据文件有关。如果您注意到您的项目列表,您将看到数据文件中位于行尾的每个项目在项目列表中都带有引号,反之亦然。
所以出现两次这些项目的原因是它们在行尾出现了一次,而在日期文件中出现了另一次。
重复我不熟悉R工具,但我认为一个简单的修正,比如在所有数据文件行末尾添加一个空格就可以解决这个问题。