为什么HashSet <point>比HashSet <string>慢得多?

时间:2017-09-10 16:07:55

标签: c# .net performance collections hashset

我想存储一些像素位置而不允许重复,所以首先想到的是HashSet<Point>或类似的类。然而,与HashSet<string>相比,这似乎非常缓慢。

例如,此代码:

HashSet<Point> points = new HashSet<Point>();
using (Bitmap img = new Bitmap(1000, 1000))
{
    for (int x = 0; x < img.Width; x++)
    {
        for (int y = 0; y < img.Height; y++)
        {
            points.Add(new Point(x, y));
        }
    }
}

需要大约22.5秒。

虽然以下代码(由于显而易见的原因不是一个好选择)只需1.6秒:

HashSet<string> points = new HashSet<string>();
using (Bitmap img = new Bitmap(1000, 1000))
{
    for (int x = 0; x < img.Width; x++)
    {
        for (int y = 0; y < img.Height; y++)
        {
            points.Add(x + "," + y);
        }
    }
}

所以,我的问题是:

  • 有没有理由呢?我检查this answer,但22.5秒比答案中显示的数字更多。
  • 有没有更好的方法来存储没有重复的点?

2 个答案:

答案 0 :(得分:282)

Point结构导致两个性能问题。将Console.WriteLine(GC.CollectionCount(0));添加到测试代码时可以看到的内容。您将看到Point测试需要~3720个集合,但字符串测试只需要~18个集合。不是免费的。当你看到一个值类型诱导了这么多集合时,你需要得出结论&#34;呃 - 哦,太多拳击&#34;。

问题在于HashSet<T>需要IEqualityComparer<T>才能完成工作。由于您没有提供一个,因此需要回退到EqualityComparer.Default<T>()返回的一个。该方法可以很好地完成字符串,它实现了IEquatable。但不是Point,它是一种类似于.NET 1.0的类型,从来没有得到泛型的爱。它所能做的就是使用Object方法。

另一个问题是Point.GetHashCode()在这个测试中没有做太多的工作,碰撞太多,所以它对Object.Equals()非常重要。 String具有出色的GetHashCode实现。

您可以通过为HashSet提供一个好的比较器来解决这两个问题。像这样:

class PointComparer : IEqualityComparer<Point> {
    public bool Equals(Point x, Point y) {
        return x.X == y.X && x.Y == y.Y;
    }

    public int GetHashCode(Point obj) {
        // Perfect hash for practical bitmaps, their width/height is never >= 65536
        return (obj.Y << 16) ^ obj.X;
    }
}

并使用它:

HashSet<Point> list = new HashSet<Point>(new PointComparer());

它现在快了150倍,轻松击败字符串测试。

答案 1 :(得分:86)

性能下降的主要原因是拳击正在进行(正如Hans Passant's回答中所述)。

除此之外,哈希码算法会使问题恶化,因为它会导致对Equals(object obj)的更多调用,从而增加装箱转换的数量。

另请注意,the hash code of Pointx ^ y计算。这会在您的数据范围内产生非常小的色散,因此HashSet的桶过多 - string不会发生这种情况,其中散列的散射要大得多。

您可以通过实现自己的Point结构(平凡)并使用更好的哈希算法来解决该问题,例如预期的数据范围,例如:通过移动坐标:

(x << 16) ^ y

有关哈希码的一些好建议,请阅读Eric Lippert's blog post on the subject