对于推荐引擎,我试图将我的电影数据转换为arff格式,即使arff格式对我来说很清楚,我也不确定解决以下问题的最佳方法是什么。
我的数据集将采用以下(或类似)格式,其中评级是预测的分类变量:
为每位用户提供以下列表: MovieID-电影片名 - 发行年份 - 类型 - 演员 - 导演 - 作家 - 运行时评级
我的问题在于,Genre,Actor,Writers等功能可以有一个或多个条目,而weka arff只允许每个属性使用一个值。我的解决方案是:
拥有genre0,genre1,genre2等属性。如果电影只有一种类型,请留空。我看到的问题是,这对于流派很有用,但这是否意味着对于演员而言,我必须在属性声明中包含所有演员?
@ATTRIBUTE actor1 {所有演员} @ATTRIBUTE actor2 {所有演员} @ATTRIBUTE actor3 {all actors}
因为它们是该特定功能的所有可能值。这种方法对我来说最有意义,但由于有成千上万的演员,导演和作家,这将是相当大的属性声明。
有没有更好,更有效的方法呢?
答案 0 :(得分:0)
我不知道绕过它的方法,但是一些预处理可能有助于减少属性声明的预期大小。例如:
{'cruise':1,'smith':2}