从Databricks到Synapse(Azure DW)的写入速度非常慢

时间:2019-12-19 14:25:46

标签: databricks synapse azure-sql-data-warehouse

我们正在使用Databricks及其SQL DW连接器将数据加载到Synapse中。我有一个包含10000行40列的数据集。需要7分钟!

使用带有Polybase和登台选项的Data Factory加载相同的数据集需要27秒钟。与批量复制相同。

可能是什么问题?我是否缺少某些配置?还是照常营业?

连接配置:

df_insert.write .format(“ com.databricks.spark.sqldw”).option(“ url”,sqlDwUrlSmall).option(“ dbtable”,t_insert).option(“ forward_spark_azure_storage_credentials”,“ True”).option (“ tempdir”,tempDir).option(“ maxStrLength”,maxStrLength).mode(“ append”).save()

1 个答案:

答案 0 :(得分:1)

您可以尝试更改写入语义:Databricks documentation

使用复制写语义,我能够更快地在Synapse中加载数据。

您可以在运行write命令之前通过以下方式对其进行配置:

spark.conf.set("spark.databricks.sqldw.writeSemantics", "copy")