如何从大文本文件中随机抽样 - 从命令行

时间:2016-03-31 06:34:19

标签: python shell command-line

我正在使用~0.5 GB的文本文件,我想提取一个有代表性的行子集。比如说,百万分之一。我创建了一个小脚本来执行此操作:

import random
result = []
with open("data.txt") as f:
    for line in f:
        if random.random() < 0.000001:
            result.append(line)

但如果我可以从命令行执行此操作而没有脚本,那么对我的目的会更有用。注意,我不在乎输出多少行,我只想设置输出每行的百分比/概率。

我的问题/请求:如何使用适合命令行的简短单线程来完成此操作。

1 个答案:

答案 0 :(得分:0)

perl好吗?试试这个:

//root
  /lib-es5
  /lib-es6
  /public/js/react-components