我很多时候不得不使用包含数十万个文件的目录,进行文本匹配,替换等等。如果我走标准路线,比如说
grep foo *
我收到太多文件错误消息,所以我最终做了
for i in *; do grep foo $i; done
或
find ../path/ | xargs -I{} grep foo "{}"
但这些并不是最优的(为每个文件创建一个新的grep进程)。
这看起来更像程序可以接收的参数大小的限制,因为for循环中的*可以正常工作。但是,无论如何,处理这个问题的正确方法是什么?
PS:不要告诉我做grep -r,我知道这一点,我正在考虑没有递归选项的工具。答案 0 :(得分:8)
在较新版本的findutils中,find可以执行xargs的工作(包括glomming行为,这样只使用了所需的grep进程):
find ../path -exec grep foo '{}' +
使用+
而不是;
作为最后一个参数会触发此行为。
答案 1 :(得分:6)
如果存在包含空格的文件名的风险,您应该记得使用-print0标志与xargs一起查找-0标志:
find . -print0 | xargs -0 grep -H foo
答案 2 :(得分:4)
xargs不会为每个文件启动新进程。它将争论聚集在一起。看看xargs的-n选项 - 它控制传递给每个子命令执行的参数数量。
答案 3 :(得分:0)
我看不到
for i in *; do
grep foo $i
done
会起作用,因为我认为“太多文件”是一个shell限制,因此它也会因for循环而失败。
话虽如此,我总是让xargs完成将参数列表拆分为可管理位的咕噜声:
find ../path/ | xargs grep foo
它不会为每个文件启动一个进程,而是每组文件。
答案 4 :(得分:0)
嗯,我有同样的问题,但似乎我提出的所有内容都已经提到了。大多数情况下,有两个问题。做全球是很昂贵的,在一百万个文件目录上做ls需要永远(在我的一台服务器上超过20分钟)并且在一百万个文件目录上执行ls *需要永远并且因“参数列表太长”错误而失败。
find /some -type f -exec some command {} \;
似乎有助于解决这两个问题。此外,如果您需要对这些文件执行更复杂的操作,您可能会考虑将您的内容编写为多个线程。这是一个用于编写CLI内容的python入门。 http://www.ibm.com/developerworks/aix/library/au-pythocli/?ca=dgr-lnxw06pythonunixtool&S_TACT=105AGX59&S_CMP=GR