Sort()和BinarySearch()与整数/字符串的性能比较

时间:2010-11-15 09:55:01

标签: .net vb.net performance generics

最初我想问一下整数排序比字符串更快。 但我自己已经回答了这个问题,我对这个问题感到惊讶。 为什么排序和BinarySearch Integers与Strings相比要快得多?

使用1.000.000 Int32 / Strings进行(VB.Net)测试:

Private Function CheckIntBinarySearch() As TimeSpan
    Dim watch As New System.Diagnostics.Stopwatch()
    Dim rnd As New Random(Date.Now.Millisecond)
    Dim intCol1 As New List(Of Int32)
    Dim intCol2 As New List(Of Int32)
    Dim contains As Int32
    For i As Int32 = 1 To 1000000
        intCol1.Add(rnd.Next(1, 1000000))
    Next
    For i As Int32 = 1 To 1000000
        intCol2.Add(rnd.Next(1, 1000000))
    Next
    Me.output.WriteLine("Integers sorting ...")
    watch.Start()
    intCol1.Sort()
    watch.Stop()
    Me.output.WriteLine("Sorting finished: " & watch.Elapsed.TotalSeconds & " seconds elapsed.")

    Me.output.WriteLine("Integers BinarySearch ...")
    watch.Start()
    For Each Val As Int32 In intCol2
        If intCol1.BinarySearch(Val) > -1 Then contains += 1
    Next
    watch.Stop()
    Me.output.WriteLine("BinarySearch finished(contains " & contains & "): " & watch.Elapsed.TotalSeconds & " seconds elapsed.")
    Return watch.Elapsed
End Function

Private Function CheckStringBinarySearch() As TimeSpan
    Dim watch As New System.Diagnostics.Stopwatch()
    Dim rnd As New Random(Date.Now.Millisecond)
    Dim stringCol1 As New List(Of String)
    Dim stringCol2 As New List(Of String)
    Dim contains As Int32
    For i As Int32 = 1 To 1000000
        stringCol1.Add(rnd.Next(1, 1000000).ToString)
    Next
    For i As Int32 = 1 To 1000000
        stringCol2.Add(rnd.Next(1, 1000000).ToString)
    Next
    Me.output.WriteLine("Strings sorting ...")
    watch.Start()
    stringCol1.Sort()
    watch.Stop()
    Me.output.WriteLine("Sorting finished: " & watch.Elapsed.TotalSeconds & " seconds elapsed.")
    Me.output.WriteLine("Strings BinarySearch ...")
    watch.Start()
    For Each Val As String In stringCol2
        If stringCol1.BinarySearch(Val) > -1 Then contains += 1
    Next
    watch.Stop()
    Me.output.WriteLine("BinarySearch finished(contains " & contains & "): " & watch.Elapsed.TotalSeconds & " seconds elapsed.")
    Return watch.Elapsed
End Function

检查性能5次:

For i As Int32 = 1 To 5
   intChecks.Add(CheckIntBinarySearch())
Next
For i As Int32 = 1 To 5
   stringChecks.Add(CheckStringBinarySearch())
Next

输出:

    1.)Integers sorting ...
    Sorting finished: 0,2292863 seconds elapsed.
    Integers BinarySearch ...
    BinarySearch finished(contains 630857): 0,9365744 seconds elapsed.
    2.)Integers sorting ...
    Sorting finished: 0,2287382 seconds elapsed.
    Integers BinarySearch ...
    BinarySearch finished(contains 632600): 0,9053134 seconds elapsed.
    3.)Integers sorting ...
    Sorting finished: 0,2318829 seconds elapsed.
    Integers BinarySearch ...
    BinarySearch finished(contains 631475): 0,9038594 seconds elapsed.
    4.)Integers sorting ...
    Sorting finished: 0,2308994 seconds elapsed.
    Integers BinarySearch ...
    BinarySearch finished(contains 632346): 0,9011047 seconds elapsed.
    5.)Integers sorting ...
    Sorting finished: 0,2266423 seconds elapsed.
    Integers BinarySearch ...
    BinarySearch finished(contains 632982): 0,893541 seconds elapsed.
    1.)Strings sorting ...
    Sorting finished: 6,5661916 seconds elapsed.
    Strings BinarySearch ...
    BinarySearch finished(contains 632579): 12,9545657 seconds elapsed.
    2.)Strings sorting ...
    Sorting finished: 6,5641975 seconds elapsed.
    Strings BinarySearch ...
    BinarySearch finished(contains 631478): 13,0184132 seconds elapsed.
    3.)Strings sorting ...
    Sorting finished: 6,4281382 seconds elapsed.
    Strings BinarySearch ...
    BinarySearch finished(contains 631775): 12,7684214 seconds elapsed.
    4.)Strings sorting ...
    Sorting finished: 6,9455087 seconds elapsed.
    Strings BinarySearch ...
    BinarySearch finished(contains 631478): 13,7057234 seconds elapsed.
    5.)Strings sorting ...
    Sorting finished: 6,6707111 seconds elapsed.
    Strings BinarySearch ...
    BinarySearch finished(contains 632346): 13,0493649 seconds elapsed.
  • Int32平均排序: 0,22948982
  • String平均排序: 6,63494942
  • Int32二进制搜索平均值: 0,90807858
  • String二进制搜索平均值: 13,09929772

结论:

  • 排序整数比排序字符串
  • 快<29>
  • BinarySearch Integers比BinarySearch Strings 14,4

为什么呢? 考虑拥有大量的“String-Integers”(“1”,“2”,“3”,......)。在排序和搜索它们之前将它们解析为整数会更好吗?将字符串解析为整数的成本是多少?好吧,我认为这是另一个问题。

5 个答案:

答案 0 :(得分:4)

字符串比较存在许多问题,整数比较转义。

  1. 考虑如何编写String比较。首先,您可以检查引用是否为null,然后您可以检查两个字符串匹配的长度,然后您可以一次比较每个数字。这至少是2次比较,其中整数只使用一个。
  2. 考虑比较“111112”和“111113”。对于字符串6,在获得结果之前需要进行比较(每个字符一个)。对于整数,它只是一个比较。
  3. 可以优化整数比较和数组以使用寄存器特定指令,因此可以直接在CPU缓存中进行大量排序/搜索 - 使用字符串可能需要多次方法调用来访问字符,检查长度等。
  4. 如果您需要特定于区域设置的比较,或者可以应对“ß”与“s”相同或“æ”与“ae”相同,则您甚至无法使用长度优化。
  5. 字符串是引用类型,整数是值类型,因此可能存在取消引用。
  6. 此列表并非详尽无遗,但至少可以了解问题。

    另外,不影响性能 - 你应该知道“12”&lt;比较字符串时出现“2”(这种情况以字典顺序发生),因此上面的代码可能不是你想要的。

答案 1 :(得分:3)

计算机可以将2个整数与单个指令进行比较,这只需要几纳秒。

比较两个字符串是另一个鱼的水壶,其中包括:

  1. 获取字符串A的长度
  2. 获取字符串B的长度
  3. 检查长度,如果它们都是 零,认为字符串相等。
  4. 获取字符串A的位置
  5. 获取字符串B的位置
  6. 开始比较,字符由 角色A对抗B.(有些 处理器可以一体化 说明,但它是 指令。)
  7. 比较字符串可能出现类似于比较整数,但对于计算机来说,它很多更难,因为您的测试结果显示

答案 2 :(得分:2)

您正在使用文化感知比较来排序字符串。 请记住,并非世界上所有语言都在字母表中达成一致。

这意味着每当比较两个字符串时,.NET将查找用户当前的文化,然后使用该语言的规则比较字符串。这是一个非平凡的操作 - 例如“ae”和“æ”被认为是相等的。

要加快字符串的排序,请使用:

 stringCol1.Sort(StringComparer.Ordinal)

通过这个改变,你将删除大部分开销(所有文化意识的东西),但是smirkingman的答案仍然适用于简单的字符串比较。

要了解默认字符串比较的复杂程度,请查看Unicode Collation Algorithm

答案 3 :(得分:1)

问题是字符串是引用类型,整数是值类型。

对于每个字符串,必须取消引用字符串的实际位置,并且必须进行比较。

对于整数,该值已经存在并且比较便宜得多。

答案 4 :(得分:0)

正如其他人所说,比较整数是一个sub指令,而要比较两个字符串,它们必须通过堆栈上的引用推送,调用函数,执行函数入口代码,然后循环遍历执行了字符,执行了函数退出代码,然后返回,然后是单个sub指令

如果你暂停几次,那就是你会看到的。几乎每次暂停时,它都会在字符串比较函数中,告诉你函数占90%或更多的时间。