Question

我们正在使用Databricks及其SQL DW连接器将数据加载到Synapse中。我有一个包含10000行40列的数据集。需要7分钟！

使用带有Polybase和登台选项的Data Factory加载相同的数据集需要27秒钟。与批量复制相同。

可能是什么问题？我是否缺少某些配置？还是照常营业？

连接配置：

df_insert.write .format（“ com.databricks.spark.sqldw”）.option（“ url”，sqlDwUrlSmall）.option（“ dbtable”，t_insert）.option（“ forward_spark_azure_storage_credentials”，“ True”）.option （“ tempdir”，tempDir）.option（“ maxStrLength”，maxStrLength）.mode（“ append”）.save（）

Answer 1

您可以尝试更改写入语义：Databricks documentation

使用复制写语义，我能够更快地在Synapse中加载数据。

您可以在运行write命令之前通过以下方式对其进行配置：

spark.conf.set("spark.databricks.sqldw.writeSemantics", "copy")

从Databricks到Synapse（Azure DW）的写入速度非常慢

1 个答案: