algorithm - 在特定时刻查找无限数字流中特定数字的计数

在特定时刻查找无限数字流中特定数字的计数

时间：2012-07-29 11:42:44

标签： algorithm memory data-structures stream distributed-computing

我在最近的一次采访中遇到了这个问题：

你有一个范围为0 to 60000的传入号码流，你有一个函数，它将从该范围获取一个数字并返回该数字的出现次数，直到那一刻。提供合适的数据结构/算法来实现该系统。

我的解决方案是：

创建一个大小为60001的数组，指向位向量。这些位向量将包含传入数字的计数，并且传入的数字也将用于索引相应数字的数组。随着计数变得太大而不能容纳它们，位向量将动态增加。

因此，如果数字的汇率为100numbers/sec，那么，在1百万年内，总数将为= (100*3600*24)*365*1000000 = 3.2*10^15。在流中所有数字相同的最坏情况下，它将花费ceil((log(3.2*10^15) / log 2) )= 52bits，如果数字均匀分布，则每个数字的出现次数将(3.2*10^15) / 60001 = 5.33*10^10，这将需要总共{{1}每个数字。因此，假设4字节指针我们需要36 bits内存用于数组，对于具有相同数字的情况，我们需要位向量大小= (60001 * 4)/1024 = 234 KB，它仍然是大约234KB。而对于另一种情况，我们需要52/8 = 7.5 bytes的位向量总计大约500KB。因此，用普通的PC和内存来做这件事是非常可行的。

但是面试官说，因为它是无限的流，它最终会溢出并给我提示，如果有很多PC我们怎么能这样做，我们可以在它们之间传递消息或考虑文件系统等。但我一直在想如果这个解决方案不起作用，那么其他人也会这样做。不用说，我没有得到这份工作。

如何用更少的内存来解决这个问题？你能想到另一种方法（使用PC网络）吗？

3 个答案:

答案 0 :(得分：5)

问题的正式模型如下：

我们想知道它是否存在一个恒定的空间有界图灵机，这样在任何给定的时间内它都能识别所有夫妻的语言L（数量，到目前为止的出现次数）。这意味着所有正确的夫妇都将被接受，所有不正确的夫妻将被拒绝。

作为Hopcroft-Ullman中定理3.13的必然结果，我们知道恒定空间有界机器识别的每种语言都是常规的。

通过使用常规语言的抽取引理可以证明上述语言不是常规语言。所以你无法用恒定的空间有界机器识别它。

答案 1 :(得分：0)

你可以轻松地使用基于索引的搜索，通过使用像int arr [60000] [1]这样的数组，每当你得到一个数字，比如5000，直接访问索引（num-1）=（5000-1）as ，arr [num-1] [1]，然后递增数字，现在每当你想知道特定数量有多少次，你就可以通过arr [num-1] [1]来访问它，你就可以了获得该数字的计数，其最简单的线性时间实现。

答案 2 :(得分：-1)

这不是External Sorting吗？将无限流存储在文件中。在文件中执行seek（）（RandomAccessFile.seek()）并获取相应的时间戳。这与二进制搜索类似，因为数据按时间戳排序。一旦达到适当的时间戳，问题就变成从一组无数的数字中计算一个特定的数字。在这里，由于数字范围有限，而不是在内存中进行快速排序，因此可以进行计数排序。