Weka ARFF如何处理每个数据项可以具有多于1个值的功能/属性

时间:2015-05-12 11:34:43

标签: machine-learning weka arff

对于推荐引擎,我试图将我的电影数据转换为arff格式,即使arff格式对我来说很清楚,我也不确定解决以下问题的最佳方法是什么。

我的数据集将采用以下(或类似)格式,其中评级是预测的分类变量:

为每位用户提供以下列表: MovieID-电影片名 - 发行年份 - 类型 - 演员 - 导演 - 作家 - 运行时评级

我的问题在于,Genre,Actor,Writers等功能可以有一个或多个条目,而weka arff只允许每个属性使用一个值。我的解决方案是:

  • 拥有genre0,genre1,genre2等属性。如果电影只有一种类型,请留空。我看到的问题是,这对于流派很有用,但这是否意味着对于演员而言,我必须在属性声明中包含所有演员?

    @ATTRIBUTE actor1 {所有演员} @ATTRIBUTE actor2 {所有演员} @ATTRIBUTE actor3 {all actors}

因为它们是该特定功能的所有可能值。这种方法对我来说最有意义,但由于有成千上万的演员,导演和作家,这将是相当大的属性声明。

有没有更好,更有效的方法呢?

1 个答案:

答案 0 :(得分:0)

我不知道绕过它的方法,但是一些预处理可能有助于减少属性声明的预期大小。例如:

{'cruise':1,'smith':2}