解决Spark SQL中的数据偏差问题

时间:2014-08-17 15:04:05

标签: scala apache-spark

我有一个加入事实表和维度表的SPARK SQL代码。连接条件导致数据偏斜,因为结果组合之一将具有与其他组合相比的巨大数据。在scala中,我认为这可以用

解决
    partitionBy(new org.apache.spark.HashPartitioner(160))

但这仅适用于RDD,而不适用于schemaRDD。

是否有相同的内容?

以下是我的代码的样子

    sqlContext.sql("select product_category,shipment_item_id,shipment_amount from shipments_fact f left outer join product_category pc on f.category_code = pc.category_code")

请求帮助......

0 个答案:

没有答案