我使用以下查询作为一些非结构化数据(没有索引,没有集群等)的基线,并且查询在非结构化数据上的表现比我将索引添加到连接列或将表添加到a时更好集群或散列集群。我觉得我的基线查询并不理想,我的任务是采取基线查询并找到一个表现最好的结构,但我尝试过的所有结构都比非结构化更差。我能对基线查询做些什么,至少会找到一个比非结构化有明显改进的结构吗?
查询:
SELECT Cust_name, price
FROM Customer, Sales
WHERE price > 1000
AND num_sold > 10
AND Sales.Cust_id = Customer.Cust_id;
此查询从150k中返回108k +行。
以下是测试中的痕迹:
在连接列Sales.Cust_id和Customer.Cust_id上添加索引:
将两个表添加到具有10000个键的哈希集群中:
答案 0 :(得分:4)
您选择了72%的数据。我认为任何结构都不会对这种情况有很大帮助。非结构化似乎是最好的。
答案 1 :(得分:0)
我能想到的唯一改进方法是: