考虑以下SchemaRDD:
schemaRdd = hiveContext.sql(myQuery)
尝试以下内容后,我无法使用 partitionBy :
numParts = 10
schemaRdd.partitionBy(numParts)
schemaRdd.keyBy(lambda row: row[0]).partitionBy(numParts)
两者都给" Row'对象没有属性' _get_object_id'错误。
然后我们如何用SchemaRdd进行分区 - 选择#partitions - 特定分区程序 - 我想在_get_object_id问题解决后提供第二个参数作为分区程序