Pyspark说“Row”对象在partitionBy()上没有属性'_get_object_id'

时间:2015-03-11 03:17:55

标签: python apache-spark pyspark

考虑以下SchemaRDD:

schemaRdd = hiveContext.sql(myQuery)

尝试以下内容后,我无法使用 partitionBy

numParts = 10
schemaRdd.partitionBy(numParts)

schemaRdd.keyBy(lambda row: row[0]).partitionBy(numParts)

两者都给" Row'对象没有属性' _get_object_id'错误。

然后我们如何用SchemaRdd进行分区 - 选择#partitions - 特定分区程序 - 我想在_get_object_id问题解决后提供第二个参数作为分区程序

0 个答案:

没有答案