哈希式保存与增量之间的设计优势是什么?

时间:2012-03-21 04:36:32

标签: performance algorithm hash

jsfiddle和tinyurl等网站不按增量顺序保存。这有什么好处吗?

如果它是随机字符串或散列,这不会很慢,因为首先你必须检查这样的条目是否已经存在,如果是,那么创建一个新的on并重复。

增量不是那么高效和直观吗?

3 个答案:

答案 0 :(得分:1)

以增量顺序保存肯定更快。但是,如果您的阵列目前有10亿个元素,您添加了10亿个条目,并删除了9.5亿个条目,您可能希望重用空间而不是再次增加阵列的大小。无论你有多少记忆,总有一天你会用完。使用一个好的哈希表,您可以轻松地保存相同数量的数据,使用一个您永远不需要调整大小的1亿个元素阵列。

哈希表确实需要一个好的算法来开发哈希码。如果它们的大小发生巨大变化,它们可能会浪费空间或导致重复分配大型阵列(这会严重惹恼垃圾收集器)。但它们很快,检查重复是一个简单的索引操作。可以在小型链接列表中处理少量重复项,这些列表非常快。如果你能猜出哈希表的初始大小,它确实有用。

我总是喜欢基于二叉树的“地图”或“词典”。它们速度较慢,但​​更灵活,不使用大型阵列;内存以小的,可管理的位分配和释放。它们可以处理大小/使用量的大幅波动。您不需要值得信赖的哈希码生成器。但是如果你知道你的数据,哈希表通常会更好。

答案 1 :(得分:1)

外人并不总是能够区分哈希和顺序密钥。应用程序完全有可能在内部使用某种形式的顺序ID,但在将其暴露给外部世界之前对其进行加密。通常不应依赖这些方法来为可能试图“猜测”ID代码的攻击者提供很大的安全性(他们基本上代表“通过默默无闻的安全性”)但至少他们可以阻止人们基于以下事实采取行动:网站似乎以某种特定的方式分配ID。例如,一个站点可能从一个使用顺序ID的服务器开始,但可能会切换到有两个服务器,其中一个顺序分配奇数,另一个顺序分配偶数(两个服务器从最高的数字开始到达由单个服务器分配)。如果序列ID已经暴露给外界,那么某些站点可能已经编码,假设ID编号表示按时间顺序排列。即使是一些简单的事情,例如将ID乘以一些大常量(忽略溢出),xor'ing一些值,并乘以一些其他常量将产生ID,这可以很容易地被知道该方法的人转换回序列号,但是哪个会阻止任何关于订购的假设。

答案 2 :(得分:0)

如果底层结构是哈希表,则检查是否存在条目可以在恒定时间内完成,所以根本不会很慢。