Question

我需要生成10GB的随机数据。

我编写了以下python脚本，通过将包含随机长度的可打印ASCII字符的字符串写入文件的每一行来生成所需的字节数

需要3个命令行参数。 1）尺寸 2）字符串的最小长度（可选参数，默认为4） 3）字符串的最大长度（可选参数，默认为10）

该程序既不使用内存也不做大量IO。我可以使用什么策略来增加单位时间内写入的字节数。

import sys
print  (sys.argv[1])

Answer 1

首先，如果要生成纯ASCII，并且需要使其尽可能快，则生成bytes可能比str更快。如有需要，您随时可以在它们上调用decode('ascii')，但更简单地，只需将它们直接写入sys.stdout.buffer或sys.stdout.buffer.raw。

这意味着您可以摆脱该表将数字映射到chr的值，而只需从您的整数中构造一个bytes或bytearray。（只要所有值都在range(0, 128)中，就可以保证得到相同的结果，但是一个函数调用内部带有一个C循环，而不是Python循环内部一个函数。）

此外，您可以只调用random.choices(range(33, 127), k=N)并将结果传递给bytes构造函数，而不是构造N个空字符串的列表然后一个一个地替换它们。

正如狄龙·戴维斯（Dillon Davis）所指出的那样，randint相当慢；您可以通过手动执行相同的逻辑将速度提高3-5倍。事实证明，这里的关系不大（我们要为数百个randint做一个choices），但还是可以解决它。

因此，将所有内容放在一起：

def create_n_bytes(self,total_bytes):
    bytes_created = 0
    """Hack at the moment, this condition will fail only after more than n bytes are 
    written """
    chars = range(33, 127)
    while bytes_created < total_bytes:
        bytes_to_create = int(random.random() * (high-low+1) + low)
        word = bytes(random.choices(chars, k=bytes_to_create))
        bytes_created = bytes_created+bytes_to_create+1
        sys.stdout.buffer.write(word + b'\n')
    # necessary if you're doing any prints between calls
    sys.stdout.flush()

此外，请尝试在PyPy中而不是CPython中运行相同的代码。可能快5％，或者快20倍。

如果您需要提高性能，那么所有常用的微优化技巧都可以在此处应用，例如隐藏randint和choices和sys.stdout.buffer（或者也许{ {1}}-在局部变量中尝试两种方式。

如果仍然不够快，则需要进行更改以一次生成更多字节。

这意味着传递更大的sys.stdout.buffer.write值，但这也可能意味着拖动NumPy：

total_bytes

现在，您如何将其分解为buf = np.random.randint(33, 127, size=total_bytes, dtype=np.uint8)至low个字节的字？我想不出任何真正聪明的方法，但是愚蠢的循环仍然比以上所有代码都要快：

high

这一步结束得太快而不是走得太远。但是无论您做什么，显然都必须处理这个问题-无论您如何做事，i = 0 while i < len(buf) - self.high: i += random.randint(self.low, self.high) buf[i] = 10 # newline sys.stdout.buffer.write(buf.data[:i])的命中率都是total_bytes，对吧？< / p>

（切片由1/(high-low)返回的memoryview而不是切片数组并对其调用data有点棘手，但是考虑到我们创建数组的方式，一定可以做到同样的事情，它可能会节省几微秒的时间，因此可能值得发表评论。）

如果我们不介意浪费内存，我们可以构建一个随机偏移数组，保证足够大（但可能会太大），然后将其用作索引数组：

to_bytes()

对于1MB的数组，此处的加速应该比1000字节之类的小得多（并且由于额外的分配，对于绝对巨大的数组也可能是不利的），但这当然值得测试。

性能比较将在很大程度上取决于您的平台（包括要写入的终端，如果您没有重定向到sizes = np.random.randint(self.low, self.high, total_bytes//self.low, dtype=np.int32) offsets = np.cumsum(sizes) last = np.searchsorted(offsets, 1000) offsets = offsets[:last] buf[offsets] = 10或/dev/null）以及您选择的参数。

使用NUL，low=4和high=10的默认值（我使用total_bytes=1000使NumPy失败）在笔记本电脑上运行（macOS，IPython iTerm，不重定向stdout，CPython 3.7.0和PyPy 3.5.2 / 5.10），这是我的结果：

原始代码：2.7毫秒
PyPy中的原始代码：938µs
我的1010版本：911µs
我的randint版本：909µs
我的PyPy版本（无random）：799µs
NumPy循环版本：584µs
只需编写一个预先存在的1000字节缓冲区：504µs

如果您减去最后一个，以获得不同算法的 real 时间：

原始代码：2.2毫秒
PyPy中的原始代码：434µs
我的random.choices版本：407µs
我的randint版本：405µs
我的PyPy版本（无random）：295µs
NumPy循环版本：80µs

我在使用NumPy random.choices / randint版本的另一台笔记本电脑上，但是在原始NumPy版本上对其进行了测试，并将stdout重定向到/ dev / null：

NumPy循环版本：122µs
NumPy cumsum版本：41µs

因此，这是已经是27倍加速的3倍加速，所以我们正在谈论80倍的范围。但是写到终端上会使事情变慢，以至于挂钟的加速只有大约5倍。（如果使用Windows，则可能会更糟。）仍然不错。

减少程序生成随机数据的运行时间

1 个答案: