在int列上搜索表比在字符串列(比如varchar)上搜索要快。
但是,如果我有一个带有Color列的Shirt表,那么创建一个Color表是否更高效,该表的主键是Shirt表上的外键?如果在搜索绿色衬衫时,衬衫的“颜色”列中的值是否为int而不是字符串值(例如“绿色”),那么联接会否定性能优势吗?
答案 0 :(得分:17)
如果我理解正确,你会问这两个查询中哪一个会更快:
SELECT * FROM shirt where color = 'Green'
VS
SELECT shirt.* FROM shirt s INNER JOIN colors c
ON s.colorid = c.colorid
WHERE c.color = 'Green'
这有点依赖于数据库(好吧......可能很多,取决于它是否正确优化,大多数情况下都是如此),但颜色表中的查找应该可以忽略不计,然后剩余的执行可以使用整数查找值,应该更快。大部分处理最终将等同于SELECT * from shirt WHERE colorid=N
。但是,我怀疑你不会注意速度上的差异,除非桌子非常大。决定应该基于哪种设计最有意义(可能是规范化的设计)。
答案 1 :(得分:9)
除了性能之外,创建单独的Color表可以使您的设计更加规范化。因此,在将来的某一天,当有人决定“深蓝色”现在应该被称为“深蓝色”时,您将更新Color表中的1行,而不是更新Shirt表中的许多行。
答案 2 :(得分:6)
与正在执行的其他操作相比,两种方法之间不太可能存在太多性能差异。如果您只有少量颜色(最多几百个),则颜色表适合大多数数据库中的单个页面。关于颜色的索引会使查找速度非常快,并且不会产生任何I / O活动(在第一次加载页面之后)。
字符串比较取决于数据库,但它确实涉及一个函数并从页面读取数据。所以,它不是免费的。当然,不同的数据库可能对字符串函数具有不同的性能特征。
应该存储的位置应该是您的应用程序的功能。假设您有一个应用程序,其中颜色将呈现给用户。有一天,您可能希望以西班牙语,斯瓦希里语或中文显示颜色的名称。如果是这样,拥有一个单独的表使这种国际化更容易。更平凡的是,您可能希望阻止输入“Grene”,如果是这样,使用这样的表可以更容易地选择列表。
另一方面,如果表现是你唯一关注的问题,那就不会有所不同。在其他情况下,查找表实际上可能比非规范化表更快。当字符串很长时会发生这种情况,从而增加了较大表中每条记录的长度。较大的表意味着更多的页面,这需要更长的时间才能加载到内存中。
答案 3 :(得分:4)
DBMS有机会优化数量有限的指标。如何告诉sQL这样做,我不知道。它可能会弄明白。
正如Joe指出的那样,您希望数据库尽可能标准化。如果您有一个单独的报告功能,可能会导致性能问题,您应该运行一个定期转换(或实施规则以实时构建)第二个只读模式。第一个是OLTP,第二个是OLAP('数据仓库');如果你要认真对待你的数据,这些都是重要的概念。
如果没有人给你答案,最好的方法就是自己测试。
(1)制作2个数据库
(2)每个都有2个表的测试
(3)在数据库上只加入字符串'color',并将其用于FK;另一个由int('colorID')
连接每个填充200万个虚拟行。对每个查询运行多个查询,计时第一次运行和平均运行。
使用开发计算机上的实例将网络从图片中取出。
您还应该在每种类型的测试之前启动和停止实例;故意将内存留在内存中,因此SQL可以更快地提供内存,但可能会使测试结果偏离实际操作 - 它可能不在内存中或缓存中。
答案 4 :(得分:1)
这实际上取决于查询优化器。您的颜色表将非常小,因此可能基于数据库统计信息和查询计划,它可能会完全加载到内存中,因此您不仅最终会否定连接的性能成本,实际上可能会更快。这显然取决于您正在使用的dbms,但是有几个dbms可以采用特殊方式处理表的提示。
Color表的另一个+1是,如果您需要更改颜色名称,则只需要更新1次,而不是每次更改字符串值。