最初我想问一下整数排序比字符串更快。 但我自己已经回答了这个问题,我对这个问题感到惊讶。 为什么排序和BinarySearch Integers与Strings相比要快得多?
使用1.000.000 Int32 / Strings进行(VB.Net)测试:
Private Function CheckIntBinarySearch() As TimeSpan
Dim watch As New System.Diagnostics.Stopwatch()
Dim rnd As New Random(Date.Now.Millisecond)
Dim intCol1 As New List(Of Int32)
Dim intCol2 As New List(Of Int32)
Dim contains As Int32
For i As Int32 = 1 To 1000000
intCol1.Add(rnd.Next(1, 1000000))
Next
For i As Int32 = 1 To 1000000
intCol2.Add(rnd.Next(1, 1000000))
Next
Me.output.WriteLine("Integers sorting ...")
watch.Start()
intCol1.Sort()
watch.Stop()
Me.output.WriteLine("Sorting finished: " & watch.Elapsed.TotalSeconds & " seconds elapsed.")
Me.output.WriteLine("Integers BinarySearch ...")
watch.Start()
For Each Val As Int32 In intCol2
If intCol1.BinarySearch(Val) > -1 Then contains += 1
Next
watch.Stop()
Me.output.WriteLine("BinarySearch finished(contains " & contains & "): " & watch.Elapsed.TotalSeconds & " seconds elapsed.")
Return watch.Elapsed
End Function
Private Function CheckStringBinarySearch() As TimeSpan
Dim watch As New System.Diagnostics.Stopwatch()
Dim rnd As New Random(Date.Now.Millisecond)
Dim stringCol1 As New List(Of String)
Dim stringCol2 As New List(Of String)
Dim contains As Int32
For i As Int32 = 1 To 1000000
stringCol1.Add(rnd.Next(1, 1000000).ToString)
Next
For i As Int32 = 1 To 1000000
stringCol2.Add(rnd.Next(1, 1000000).ToString)
Next
Me.output.WriteLine("Strings sorting ...")
watch.Start()
stringCol1.Sort()
watch.Stop()
Me.output.WriteLine("Sorting finished: " & watch.Elapsed.TotalSeconds & " seconds elapsed.")
Me.output.WriteLine("Strings BinarySearch ...")
watch.Start()
For Each Val As String In stringCol2
If stringCol1.BinarySearch(Val) > -1 Then contains += 1
Next
watch.Stop()
Me.output.WriteLine("BinarySearch finished(contains " & contains & "): " & watch.Elapsed.TotalSeconds & " seconds elapsed.")
Return watch.Elapsed
End Function
检查性能5次:
For i As Int32 = 1 To 5
intChecks.Add(CheckIntBinarySearch())
Next
For i As Int32 = 1 To 5
stringChecks.Add(CheckStringBinarySearch())
Next
输出:
1.)Integers sorting ...
Sorting finished: 0,2292863 seconds elapsed.
Integers BinarySearch ...
BinarySearch finished(contains 630857): 0,9365744 seconds elapsed.
2.)Integers sorting ...
Sorting finished: 0,2287382 seconds elapsed.
Integers BinarySearch ...
BinarySearch finished(contains 632600): 0,9053134 seconds elapsed.
3.)Integers sorting ...
Sorting finished: 0,2318829 seconds elapsed.
Integers BinarySearch ...
BinarySearch finished(contains 631475): 0,9038594 seconds elapsed.
4.)Integers sorting ...
Sorting finished: 0,2308994 seconds elapsed.
Integers BinarySearch ...
BinarySearch finished(contains 632346): 0,9011047 seconds elapsed.
5.)Integers sorting ...
Sorting finished: 0,2266423 seconds elapsed.
Integers BinarySearch ...
BinarySearch finished(contains 632982): 0,893541 seconds elapsed.
1.)Strings sorting ...
Sorting finished: 6,5661916 seconds elapsed.
Strings BinarySearch ...
BinarySearch finished(contains 632579): 12,9545657 seconds elapsed.
2.)Strings sorting ...
Sorting finished: 6,5641975 seconds elapsed.
Strings BinarySearch ...
BinarySearch finished(contains 631478): 13,0184132 seconds elapsed.
3.)Strings sorting ...
Sorting finished: 6,4281382 seconds elapsed.
Strings BinarySearch ...
BinarySearch finished(contains 631775): 12,7684214 seconds elapsed.
4.)Strings sorting ...
Sorting finished: 6,9455087 seconds elapsed.
Strings BinarySearch ...
BinarySearch finished(contains 631478): 13,7057234 seconds elapsed.
5.)Strings sorting ...
Sorting finished: 6,6707111 seconds elapsed.
Strings BinarySearch ...
BinarySearch finished(contains 632346): 13,0493649 seconds elapsed.
Int32
平均排序: 0,22948982 秒String
平均排序: 6,63494942 秒Int32
二进制搜索平均值: 0,90807858 秒String
二进制搜索平均值: 13,09929772 秒结论:
为什么呢? 考虑拥有大量的“String-Integers”(“1”,“2”,“3”,......)。在排序和搜索它们之前将它们解析为整数会更好吗?将字符串解析为整数的成本是多少?好吧,我认为这是另一个问题。
答案 0 :(得分:4)
字符串比较存在许多问题,整数比较转义。
此列表并非详尽无遗,但至少可以了解问题。
另外,不影响性能 - 你应该知道“12”<比较字符串时出现“2”(这种情况以字典顺序发生),因此上面的代码可能不是你想要的。
答案 1 :(得分:3)
计算机可以将2个整数与单个指令进行比较,这只需要几纳秒。
比较两个字符串是另一个鱼的水壶,其中包括:
比较字符串可能出现类似于比较整数,但对于计算机来说,它很多更难,因为您的测试结果显示
答案 2 :(得分:2)
您正在使用文化感知比较来排序字符串。 请记住,并非世界上所有语言都在字母表中达成一致。
这意味着每当比较两个字符串时,.NET将查找用户当前的文化,然后使用该语言的规则比较字符串。这是一个非平凡的操作 - 例如“ae”和“æ”被认为是相等的。
要加快字符串的排序,请使用:
stringCol1.Sort(StringComparer.Ordinal)
通过这个改变,你将删除大部分开销(所有文化意识的东西),但是smirkingman的答案仍然适用于简单的字符串比较。
要了解默认字符串比较的复杂程度,请查看Unicode Collation Algorithm。
答案 3 :(得分:1)
问题是字符串是引用类型,整数是值类型。
对于每个字符串,必须取消引用字符串的实际位置,并且必须进行比较。
对于整数,该值已经存在并且比较便宜得多。
答案 4 :(得分:0)
正如其他人所说,比较整数是一个sub
指令,而要比较两个字符串,它们必须通过堆栈上的引用推送,调用函数,执行函数入口代码,然后循环遍历执行了字符,执行了函数退出代码,然后返回,然后是单个sub
指令。
如果你暂停几次,那就是你会看到的。几乎每次暂停时,它都会在字符串比较函数中,告诉你函数占90%或更多的时间。