Hadoop的地图连接在spark sql中等效

时间:2014-09-24 18:25:24

标签: apache-spark apache-spark-sql

我在Spark中寻找Hadoop的mapjoin等价物,我可以找到spark.sql.autoBroadcastJoinThreshold

  1. 使用spark SQL可以正常工作吗?我尝试但是它似乎没有效果,因为即使我应用参数也没有随机读/写相同。
  2. 我设置了此值并运行了我的查询sqlContext.sql("SET spark.sql.autoBroadcastJoinThreshold=100000000;")

    1. SPARK-SQL中还有其他等效概念吗?
    2. 谢谢..

1 个答案:

答案 0 :(得分:0)

  1. 这是在Spark 1.1.0中引入的。
  2. 在Spark测试套件中进行了测试(请参阅PlannerSuite
  3. 您的SET查询被不支持它的Spark版本高兴地悄然吞没 - 我只是用1.0.2尝试过。