找到给定的40亿个整数中不存在的整数

时间:2015-01-14 10:35:18

标签: java algorithm bitset large-data

我在破解编码面试书时遇到了这个问题。

  

问题:给定一个包含40亿非负整数的输入文件,   提供一种算法来生成一个未包含在的整数   文件。假设您有1 GB的内存可用于此任务。

我的问题:为什么我们不能使用BitSet而不是Byte []?不是简化了事情吗?

代码:

 long numberOflnts = ((long) Integer.MAX_VALUE) + I;
 byte[] bitfield = new byte [(int) (numberOflnts / 8)];
 void findOpenNumberQ throws FileNotFoundException {
 Scanner in = new Scanner(new FileReader("file.txt"));
 while (in.hasNextlntQ) {
 int n = in.nextlnt ();
 /* Finds the corresponding number in the bitfield by using
 * the OR operator to set the nth bit of a byte
 * (e.g., 10 would correspond to the 2nd bit of index 2 in
 * the byte array). */
 bitfield [n / 8] |= 1 « (n % 8);
 }

 for (int i = 0; i < bitfield.length; i++) {
 for (int j = 0; j < 8; j++) {
 /* Retrieves the individual bits of each byte. When 0 bit
 * is found, finds the corresponding value. */
 if ((bitfield[i] & (1 « j)) == 0) {
 System.out.println (i * 8 + j);
 return;
 }
 }
 }
}

跟进: 如果你只有10 MB的内存怎么办?假设所有值都是不同的。

1 个答案:

答案 0 :(得分:1)

问题确实允许替代解决方案。 Java的BitSet可以工作,但有几个隐藏的陷阱:

  • Java VM需要一些内存。所以你可能会耗尽内存。
  • BitSet由数组支持。 Java数组使用32位signed int作为索引,因此您实际上有2 ^ 31个条目。由于每个都是64位长,这就足够了。
  • 添加位时,集合会增长。最终,Java代码需要为新位分配新数组。如果你不小心,你可以在这一步中耗尽内存。修复是从头开始创建2 ^ 32位的数组。