标签: pyspark apache-spark-sql
全部,
我对编写SparkSQL程序有疑问,写作之间是否存在性能差异
SQLContext.sql("select count(*) from (select distinct col1,col2 from table))")
df.select("col1,col2").distinct().count()
我想听听将10多个表加入Py-Spark程序的非常大的查询(1000行)的建议和正确方法
我来自SQL背景,我们正致力于将现有逻辑转换为hadoop,因此SQL非常方便。