应用错误收集

Spark SQL - pyspark api vs sql查询

时间：2017-06-14 22:55:32

标签： pyspark apache-spark-sql

全部，

我对编写SparkSQL程序有疑问，写作之间是否存在性能差异

SQLContext.sql("select count(*) from (select distinct col1,col2 from table))")
使用pyspark Api：df.select("col1,col2").distinct().count()。

我想听听将10多个表加入Py-Spark程序的非常大的查询（1000行）的建议和正确方法

我来自SQL背景，我们正致力于将现有逻辑转换为hadoop，因此SQL非常方便。

0 个答案:

没有答案