在所有stdin行上映射脚本

时间:2017-12-06 21:25:57

标签: bash

是否有更为惯用的方式来执行以下操作:

cat some_lines.txt | while read x; do ./process_line.sh $x; done

即。将脚本应用于stdin的每一行?

我可以在脚本本身中包含while read x;样板文件,但这也不是真的感觉正确。

2 个答案:

答案 0 :(得分:3)

如果您正在运行外部流程并拥有GNU xargs,请考虑:

xargs -n1 -d $'\n' ./process_line.sh <some_lines.txt

如果您不喜欢while read循环的详细程度,并且正在运行shell函数(其中fork()本身不需要,因此在哪里使用像xargs或GNU parallel这样的外部工具具有很大的性能成本),您可以通过将循环包装在函数中来避免它:

for_each_line() {
  local line
  while IFS= read -r line; do
    "$@" "$line" </dev/null
  done
}

...可以运行:

process_line() {
  echo "Processing line: $1"
}
for_each_line process_line <some_lines.txt

答案 1 :(得分:0)

GNU Parallel是为这类任务而制定的 - 只要并行运行处理没有问题:

cat some_lines.txt | parallel ./process_line.sh {}

默认情况下,它将为每个cpu-core运行一个作业。这可以使用--jobs进行调整。

通过GNU Parallel以每个作业5 ms的顺序运行它有一个开销。您获得的好处之一是保证不同作业的输出不会混杂在一起,因此您可以使用输出,就好像作业没有并行运行一样:

cat some_lines.txt | parallel ./process_line.sh {} | do_post_processing

GNU Parallel是一个通用的并行程序,可以很容易地在同一台机器上或在你有ssh访问权限的多台机器上并行运行作业。

如果要在4个CPU上运行32个不同的作业,并行化的直接方法是在每个CPU上运行8个作业:

Simple scheduling

GNU Parallel会在完成后生成一个新进程 - 保持CPU处于活动状态,从而节省时间:

GNU Parallel scheduling

<强>安装

出于安全原因,您应该使用软件包管理器安装GNU Parallel,但如果没有为您的发行版打包GNU Parallel,则可以进行个人安装,这不需要root访问权限。这可以在10秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

有关其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解详情

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

完成教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel