Question

我是学习算法的新手 - 我也不是计算机科学专业的毕业生但是，在阅读线性排序非比较算法时，我可以理解基数排序是计数排序的扩展。
我不清楚的是计数排序的限制为什么在计算排序时我会选择基数排序似乎是为了避免进行O（n * logn）比较而需要的目的？它确实似乎是一个更简单的实现。

Answer 1

想象一下有人给你一个整数列表来排序。你对它一无所知，只不过它包含整数。

如果你很幸运，列表可能包含一个相当紧密的数字。如果你正在排序整数介于-100和100之间的整数，那么为了进行计数排序而创建一个具有该大小的数组就不会有坏处。

但即使一个数字非常大或非常小，您现在必须扩展数组的边界，以便对整个输入进行计数排序。如果你真的想要对所有可能的整数进行排序（并且在创建数组之前你不知道值的范围，除非你先找到它），你需要创建一个大小为2 * max_int的数组（对于负整数和正整数）。

基数排序很好，因为你永远不需要创建一个大小超过数字范围（0-9）的数组。

Answer 2

计数排序算法（包括Radix）仅适用于可数元素。不幸的是，实数不可数，因此您无法轻松排序“浮动”或“双重”值。想象一下，您需要对测量温度列表进行排序。

现在关于可数量（如整数），假设从数组中获取元素是O（1），则会有一个基本错误。这不是真的。当你有大小为N的数组时，将指针设置到这个数组的成本是O（log（N））。换句话说，要访问元素Array [i]，您需要定义'i'并定义'i'的值，您需要设置log（i）位。只要N很小（比如使用计数排序在-100..100之间排序值为200），我们假设log（N）是常数并且忽略它。但是如果你想整数排序比计数数组大（大小：2 * MAX_INT），log（2 * MAX_INT）可能是一个很大的数字（如32）。所以假设你有一个100的数组：一个整数的[100]。使用O（N * log（N））排序需要O（100 * log（100））比较。但是当使用计数排序时你创建一个巨大的计数数组（对于64位整数整数说2 ^ 64）你的总时间是O（N * log（2 ^ 64）），实际上大于O（100 * log（ 100））。听起来很疯狂这是真的。并且考虑一下在开始计数之前需要将整个计数数组设置为零的事实 - 这是2 ^ 64次操作，远远超过整个O（100 * log（100））... 还要考虑一下巨大的内存浪费......

总结：即使你有无限的内存使用，运行时间也不是真的O（N）。实际上是将计数数组归零并执行计数的成本：

O(MAX_INT) + O(N*log(MAX_INT))

通常，对于任何合理的N，这远远超过O(N*log(N))，因此计算排序是不切实际的。唯一可行的情况是当值的范围很小时（如-100..100）和

O(MAX_INT) + O(N*log(MAX_INT))

变为O(200) + O(N*log(200)) ~ O(N)

基数排序使您可以节省一些内存和将大量计数数组归零的成本，但是您仍然没有真正松开log（）因子，因为多个范围-X..X具有log（X）数字并且您仍然具有通常大于log（N）的日志（MAX_INT），其中N是您要排序的数组的大小。

Answer 3

计数排序具有复杂度O（max - min），其中min，max是您要排序的最小和最大整数。如果此范围远大于您要排序的数组的大小，则基数排序更好。

Answer 4

我不赞同其中一些答案。 First Radix Sort可以对双打和浮动进行排序。我已经完成了它，它仍然比比较分类快得多。

对于操作，您可以通过查看我之前撰写的这篇文章了解更多信息。它总是最好的线性时间排序。

How to improve on this implementation of the radix-sort?

Answer 5

当人们谈论算法时，他们通常会表达算法在时间和内存要求方面的表现正如你所看到的，计数排序很棒。它以线性时间运行但它也需要O(N)内存要求当我们寻找算法时，我们经常会在内存和时间复杂度之间进行权衡。通过使用更多内存，我们可以获得更好的运行时间因此，虽然计数排序具有更好的时间复杂度，但它需要与输入大小成比例的空间，这使得在大多数情况下使用它是不切实际的。作为一个更严重的问题，你需要事先知道输入中的数字范围。确保编码它简单而优雅，但是当涉及到实际应用时，它是有限的。

线性排序算法

5 个答案: