在PySpark中编写增量表时如何使用Zorder集群?

时间:2019-01-07 18:49:58

标签: apache-spark pyspark apache-spark-sql databricks

我正在尝试按照https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html中的建议编写一个非常大的PySpark数据框

但是,此页面显示了Scala中的建议,我不知道如何将其翻译为PySpark

我看到这样的Scala代码:

spark.read.table(connRandom)
     .write.format("delta").saveAsTable(connZorder)

sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)")

但是我该如何等效于第二行,对PySpark中特定列“ my_col”上的zorder集群说呢?

1 个答案:

答案 0 :(得分:1)

第二行是Scala提供的SQL命令。您可以使用spark.sql("OPTIMIZE tableName ZORDER BY (my_col)")在python中执行相同的操作。

还要看看documentation,它有一个完整的PySpark笔记本示例。