我们正在使用Databricks及其SQL DW连接器将数据加载到Synapse中。我有一个包含10000行40列的数据集。需要7分钟!
使用带有Polybase和登台选项的Data Factory加载相同的数据集需要27秒钟。与批量复制相同。
可能是什么问题?我是否缺少某些配置?还是照常营业?
连接配置:
df_insert.write .format(“ com.databricks.spark.sqldw”).option(“ url”,sqlDwUrlSmall).option(“ dbtable”,t_insert).option(“ forward_spark_azure_storage_credentials”,“ True”).option (“ tempdir”,tempDir).option(“ maxStrLength”,maxStrLength).mode(“ append”).save()
答案 0 :(得分:1)
您可以尝试更改写入语义:Databricks documentation
使用复制写语义,我能够更快地在Synapse中加载数据。
您可以在运行write命令之前通过以下方式对其进行配置:
spark.conf.set("spark.databricks.sqldw.writeSemantics", "copy")