Spark SQL - pyspark api vs sql查询

时间:2017-06-14 22:55:32

标签: pyspark apache-spark-sql

全部,

我对编写SparkSQL程序有疑问,写作之间是否存在性能差异

  1. SQLContext.sql("select count(*) from (select distinct col1,col2 from table))")
  2. 使用pyspark Api:df.select("col1,col2").distinct().count()
  3. 我想听听将10多个表加入Py-Spark程序的非常大的查询(1000行)的建议和正确方法

    我来自SQL背景,我们正致力于将现有逻辑转换为hadoop,因此SQL非常方便。

0 个答案:

没有答案