spark 1.3.1:Dataframe打破MLib API

时间:2015-04-21 06:23:26

标签: python apache-spark apache-spark-sql

我正在尝试使用Spark SQL和MLib一起在python中创建推荐程序(扩展电影推荐程序)。它在1.2.0下工作正常。 但是,在1.3.1中,默认情况下spark会创建Dataframe对象而不是SchemaRDD对象作为SQL的输出。因此,mlib.ALS.train方法失败并出现断言错误: 断言(评分,RDD) (当然评级不再是RDD :))

任何人都面临这个问题?任何解决方法(我想使用地图只是为了将DF转换为RDD,但那很愚蠢:))

1 个答案:

答案 0 :(得分:0)

我认为社区正在修补此问题。但是现在,我们可以在ALS.train中使用Dataframe.rdd(或者我们只看到允许RDD的任何其他地方)