Am使用SQL笔记本在Azure Data Bricks中运行以下SQL查询,该查询运行40秒,而同一查询在Azure DB中运行4秒,如何使查询在Azure Data Bricks中运行得更快。下面的方法在Azure DB和数据砖之间连接表
-- Create Table
CREATE TABLE SalesRep
USING org.apache.spark.sql.jdbc
OPTIONS (
url 'jdbc:sqlserver://#SERVERNAME#.database.windows.net:1433;database=AdventureWorksLT',
dbtable 'SalesLT.SalesRep',
user '#USERNAME#',
password "#PASSWORD#"
);
SQL查询
select i.*
FROM
Invoice I
INNER JOIN InvoiceLineItem ILT ON I.InvoiceRecordId=ILT.InvoiceRecordId
INNER JOIN part ON part.[parent part]=ILT.PartNumber
WHERE
part.[item nbr] ='12X-33-xx'
我们是否可以在Azure数据砖中创建索引,因为在azure数据库中运行的查询正在使用索引,因此查询是否更快,是否有其他方法可以在azure数据砖中建立索引,或者是否有其他原因导致数据砖性能下降< / p>
Cluster configuration
Databricks Runtime Version
4.1 (includes Apache Spark 2.3.0, Scala 2.11)
Python Version
3
Driver Type
28.0 GB Memory, 8 Cores, 1.5 DBU Standard_DS4_v2
Worker Type
112.0 GB Memory, 16 Cores, 4 DBU Standard_DS14_v2
Min Workers
1
Max Workers
15