使用多个ARFF文件进行WEKA预测

时间:2015-11-13 17:26:34

标签: r machine-learning weka arff

我对WEKAARFF个文件相当陌生,我目前正在使用其GUI。我感到困惑的是如何使用多个ARFF文件进行预测(分类)?

例如,文件A有3个属性,"ID""attribute_1""attribute_2";文件B有2个属性,"ID""Scores"(用于预测的主要属性)。

问题是,file A中的每一行数据都是唯一的,但B中的数据是重复的。这两个文件都与"ID"相关联。换句话说,file B"scores"的每个元素存储了一组file A

是否有任何关于我如何加入file A&的建议? B在一起?或者有什么方法可以解决WEKA以使其有效吗?

1 个答案:

答案 0 :(得分:1)

Weka需要一个"扁平"表,即arff - 文件。此过程也称为非规范化。有一个weka包(Denormalize),它包含一个执行此操作的过滤器。

有一个例子可以在这里展平交易数据:https://weka.wikispaces.com/How+can+I+use+transactional+data+in+Weka%3F

在使用过滤器之前,您必须将两个文件合并在一起。如果您有csv - 文件或类似内容,您可以通过Excel实现此目的,请参阅例如:

https://superuser.com/questions/420635/how-do-i-join-two-worksheets-in-excel-as-i-would-in-sql