应用错误收集

时间：2015-03-11 03:17:55

标签： python apache-spark pyspark

考虑以下SchemaRDD：

schemaRdd = hiveContext.sql(myQuery)

尝试以下内容后，我无法使用 partitionBy ：

numParts = 10
schemaRdd.partitionBy(numParts)

schemaRdd.keyBy(lambda row: row[0]).partitionBy(numParts)

两者都给＆＃34; Row＆＃39;对象没有属性＆＃39; _get_object_id＆＃39;错误。

然后我们如何用SchemaRdd进行分区 - 选择#partitions - 特定分区程序 - 我想在_get_object_id问题解决后提供第二个参数作为分区程序

没有答案