我需要生成一个二进制文件,其中只包含唯一的随机数,具有单精度。 然后,目的是计算该文件的熵并将其与其他数据集熵一起使用以计算比率entropy_file / entropy_randUnique。该值命名为" randomness"。
我可以在python中使用双精度数字并使用set()
将其插入struct.pack
,如下所示:
numbers = set()
while len(numbers) < size:
numbers.add(struct.pack(precision,random.random()))
for num in numbers:
file.write(num)
但是当我改为单精度时,我不能只改变包装方法(这将产生许多相同的数字,而while将永远不会结束),而我无法生成单精度数字与random
。我调查了numpy
,但发电机的工作方式与我理解的方式相同。
如何在二进制文件中获得370914252(这是我最大的测试用例)唯一的float32,即使它们不是随机的,我认为一个洗牌序列就足够了..
答案 0 :(得分:3)
最好的办法是生成随机的32位整数,然后将它们转换为浮点数。在生成数字时,您需要拒绝无穷大和NAN的位表示。
您可以从整数值而不是浮点值生成set
,然后在输出上进行转换。您可以使用位图来检测已使用的整数值,而不是使用集合;这更有可能适合记忆,特别是考虑到你指出的最大样本量。
def random_unique_floats(n):
used = bytearray(0 for i in xrange(2**32 // 8))
count = 0
while count < n:
bits = random.getrandbits(32)
value = struct.unpack('f', struct.pack('I', bits))[0]
if not math.isinf(value) and not math.isnan(value):
index = bits // 8
mask = 0x01 << (bits & 0x07)
if used[index] & mask == 0:
yield value
used[index] |= mask
count += 1
for num in random_unique_floats(size):
file.write(struct.pack('f', num))
请注意,当您的样本数接近可能的浮点值数时,运行时间将呈指数级增长。