在WEKA的Apriori

时间:2017-04-06 18:21:48

标签: weka text-mining apriori

我是所有这些数据挖掘,WEKA工具等的新手,

在我的学术项目中,我必须处理错误报告。我在我的SQL Server中有它们。我采用了Bug摘要属性并应用了标记化,停止了单词删除和词干技术。

摘要中的所有词干都存储在数据库中;分离。现在我必须应用频繁模式挖掘算法,并使用WEKA工具找出频繁项目集。我有这样的arff文件。

@relation ItemSets

@attribute bugid integer
@attribute summary string

@data
755113,enhanc;keep;log;recommend;share
759414,access;review;social
763806,allow;intrus;less;provid;shrunken;sidebar;social;specifi
767221,datacloneerror;deeper;dig;framework;jsm
771353,document;integr;provid;secur;social
785540,avail;determin;featur;method;provid;social;whether
785591,chat;dock;horizont;nest;overlap;scrollbar
787767,abus;api;implement;perform;runtim;warn;worker

在Weka中打开它后,在WEKA Explorer的 Associate 标签下,我无法启动此过程(启用按钮被禁用),并选择了Apriori。

现在请建议我如何使用WEKA在摘要属性上查找频繁项目集。我需要认真的帮助。帮助将不胜感激。提前谢谢!

1 个答案:

答案 0 :(得分:1)

在Weka中使用您的文件无法使用Apriori的原因是Apriori只允许使用名义属性值。你想找到什么样的规则?你能给出一个你想要获得的规则的例子吗?

values_you_want_to_be_the_antecedent_part_of_your_rule ==> values_you_want_to_be_the_consequent_part_of_your_rule

将您的属性更改为名义

@relation ItemSets

@attribute bugid {755113, 759414, 763806}
@attribute summary {'enhanc;keep;log;recommend;share', 'access;review;social', 'allow;intrus;less;provid;shrunken;sidebar;social;specifi'}

@data
755113,'enhanc;keep;log;recommend;share'
759414,'access;review;social'
763806,'allow;intrus;less;provid;shrunken;sidebar;social;specifi'

只会为您提供类似

的规则
bugid=755113 1 ==> summary=enhanc;keep;log;recommend;share 1    <conf:(1)> lift:(3) lev:(0.22)

如果您要在摘要单词中查找频繁项目集,则该bugid无关紧要,您可以将其从文件中删除。 Apriori用于获取关联规则,例如enhanc, keeplog提供支持X和置信度Y.要查找频繁项目集,您需要重新构建数据,以便每个摘要词都是值为true / false或true / missing的属性,请参阅{{ 3}}问题。

在Weka中尝试以下文件。选择“关联”,选择“Apriori”,双击“选择”按钮旁边的白色输入字段。在那里,将outputItemSets设置为true。在控制台输出中,您将看到所有频繁项目集和所有已获得的规则以及足够的支持。

@relation ItemSets

@attribute enhanc {true}
@attribute keep {true}
@attribute log {true}
@attribute recommend {true}
@attribute share {true}
@attribute access {true}
@attribute review {true}
@attribute social {true}
@attribute allow {true}
@attribute intrus {true}
@attribute less {true}
@attribute provid {true}
@attribute shrunken {true}
@attribute sidebar {true}
@attribute specifi {true}


@data
true,true,true,true,true,?,?,?,?,?,?,?,?,?,?
?,?,?,?,?,true,true,true,?,?,?,?,?,?,?
?,?,?,?,?,?,?,true,true,true,true,true,true,true,true

问号?代表缺失值。