我的任务是编写一个shell脚本来浏览Linux和Solaris服务器上许多目录中的数百个日志文件。一些日志以多种格式压缩,一些日志的大小为几GB。我担心grep使用服务器上的大量资源,并可能通过耗尽内存来关闭机器上运行的Web服务器(如果可能发生这种情况)。
我应该解压缩文件,grep它们然后再次压缩它们或使用zgrep(或等效的)在压缩时搜索它们吗?使用一种方法优于另一种方法是否有优势资源?
此外,是否有一种简单的方法可以将命令的内存使用量限制为当前可用的百分比?
如果有人能够解释在运行这些命令时内存使用情况如何,那么它会有很多帮助。
答案 0 :(得分:5)
<property>
<name>dfs.block.size</name>
<value>134217728</value>
<description>Block size</description>
</property>
内存使用量不变;它不会随文件大小†而缩放。它不需要将整个文件保存在内存中,只需要保存它所搜索的区域。
减压是类似的。内存使用量与字典大小成正比,而不是与文件总大小成正比。字典大小无需担心:最多几兆字节。
我不担心一些简单的grep
/ grep
/ zgrep
搜索会删除其他进程。这些东西是Linux的面包和黄油。
†谨防通过files with incredibly long lines进行扫描。它的内存使用量随线长而变化。您可以使用zcat | grep
跳过二进制文件,这通常就足够了。