生成大量唯一的随机float32数字

时间:2013-11-20 16:44:28

标签: python numpy floating-point floating-point-precision floating-point-conversion

我需要生成一个二进制文件,其中只包含唯一的随机数,具有单精度。 然后,目的是计算该文件的熵并将其与其他数据集熵一起使用以计算比率entropy_file / entropy_randUnique。该值命名为" randomness"。

我可以在python中使用双精度数字并使用set()将其插入struct.pack,如下所示:

    numbers = set()
    while len(numbers) < size:
        numbers.add(struct.pack(precision,random.random()))
    for num in numbers:
        file.write(num)

但是当我改为单精度时,我不能只改变包装方法(这将产生许多相同的数字,而while将永远不会结束),而我无法生成单精度数字与random。我调查了numpy,但发电机的工作方式与我理解的方式相同。 如何在二进制文件中获得370914252(这是我最大的测试用例)唯一的float32,即使它们不是随机的,我认为一个洗牌序列就足够了..

1 个答案:

答案 0 :(得分:3)

最好的办法是生成随机的32位整数,然后将它们转换为浮点数。在生成数字时,您需要拒绝无穷大和NAN的位表示。

您可以从整数值而不是浮点值生成set,然后在输出上进行转换。您可以使用位图来检测已使用的整数值,而不是使用集合;这更有可能适合记忆,特别是考虑到你指出的最大样本量。

def random_unique_floats(n):
    used = bytearray(0 for i in xrange(2**32 // 8))
    count = 0
    while count < n:
        bits = random.getrandbits(32)
        value = struct.unpack('f', struct.pack('I', bits))[0]
        if not math.isinf(value) and not math.isnan(value):
            index = bits // 8
            mask = 0x01 << (bits & 0x07)
            if used[index] & mask == 0:
                yield value
                used[index] |= mask
                count += 1

for num in random_unique_floats(size):
    file.write(struct.pack('f', num))

请注意,当您的样本数接近可能的浮点值数时,运行时间将呈指数级增长。