Question

我很多时候不得不使用包含数十万个文件的目录，进行文本匹配，替换等等。如果我走标准路线，比如说

grep foo *

我收到太多文件错误消息，所以我最终做了

for i in *; do grep foo $i; done

或

find ../path/ | xargs -I{} grep foo "{}"

但这些并不是最优的（为每个文件创建一个新的grep进程）。

这看起来更像程序可以接收的参数大小的限制，因为for循环中的*可以正常工作。但是，无论如何，处理这个问题的正确方法是什么？

PS：不要告诉我做grep -r，我知道这一点，我正在考虑没有递归选项的工具。

Answer 1

在较新版本的findutils中，find可以执行xargs的工作（包括glomming行为，这样只使用了所需的grep进程）：

find ../path -exec grep foo '{}' +

使用+而不是;作为最后一个参数会触发此行为。

Answer 2

如果存在包含空格的文件名的风险，您应该记得使用-print0标志与xargs一起查找-0标志：

find . -print0 | xargs -0 grep -H foo

Answer 3

xargs不会为每个文件启动新进程。它将争论聚集在一起。看看xargs的-n选项 - 它控制传递给每个子命令执行的参数数量。

Answer 4

我看不到

for i in *; do
    grep foo $i
done

会起作用，因为我认为“太多文件”是一个shell限制，因此它也会因for循环而失败。

话虽如此，我总是让xargs完成将参数列表拆分为可管理位的咕噜声：

find ../path/ | xargs grep foo

它不会为每个文件启动一个进程，而是每组文件。

Answer 5

嗯，我有同样的问题，但似乎我提出的所有内容都已经提到了。大多数情况下，有两个问题。做全球是很昂贵的，在一百万个文件目录上做ls需要永远（在我的一台服务器上超过20分钟）并且在一百万个文件目录上执行ls *需要永远并且因“参数列表太长”错误而失败。

find /some -type f -exec some command {} \;

似乎有助于解决这两个问题。此外，如果您需要对这些文件执行更复杂的操作，您可能会考虑将您的内容编写为多个线程。这是一个用于编写CLI内容的python入门。 http://www.ibm.com/developerworks/aix/library/au-pythocli/?ca=dgr-lnxw06pythonunixtool&S_TACT=105AGX59&S_CMP=GR