在Unix中搜索一个给定字符串的文件,然后在该文件中搜索另一组字符串

时间:2014-11-14 20:08:36

标签: grep find ls xargs

我正在使用命令来搜索从Unix中的给定目录开始的文件,结束* .sas并包含字符串DB2的文件。然后我想要搜索字符串DSN =或DATASRC =的结果文件集,并打印包含这些字符串的行。这是我正在使用的FInd命令:

find '/shrproj/'  -type f -name '*.sas'  -exec  grep   -il 'DB2'  {} \;  2> /dev/null  |  xargs   egrep   -Ri  'DSN=|DATASRC='

这给了我想要的输出:

/shrproj/files/stp_code/aea_aat_stp/icrv3/bin/macro/cnct_2_eaw.sas:                   ,"DSN=%UPCASE(&the_database.)"
/shrproj/files/stp_code/aea_aat_stp/icrv3/bin/macro/cnct_2_eaw.sas:                   ,"DSN=%UPCASE(&the_database.)"

但是现在我还要按照上面的结果打印文件的属性(使用-ls选项),即下面是我打算实现的目标:

/shrproj/files/stp_code/aea_aat_stp/icrv3/bin/macro/cnct_2_eaw.sas:                   ,"DSN=%UPCASE(&the_database.)"
/shrproj/files/stp_code/aea_aat_stp/icrv3/bin/macro/cnct_2_eaw.sas:                   ,"DSN=%UPCASE(&the_database.)"
61522   19 -rwxrwsr-x  1 sas       sas          18546 Jun  2  2010 /shrproj/files/stp_code/aea_aat_stp/icrv3/bin/macro/cnct_2_eaw.sas

使用带有-ls选项的find命令时,上一行中文件的属性是相同的。

 find /shrproj/files/stp_code/aea_aat_stp/icrv3/bin/macro/cnct_2_eaw.sas -ls

那么我如何使用我上面使用的第一个Find命令为每个文件实现这一点?。

请告诉我。感谢。

2 个答案:

答案 0 :(得分:1)

对于这个特定的任务,BroSlows解决方案似乎是最好的(虽然不一定是最可读的)。但如果您将来需要更高级的东西呢?这是GNU Parallel可以帮助您的地方。制作要为每个文件运行的脚本或bash函数:

grepit() {
  FILE="$1"
  grep -qi DB2 "$FILE" && 
    egrep -qi 'DSN=|DATASRC=' &&
    ls -l "$FILE"
}
export -f grepit

find '/shrproj/'  -type f -name '*.sas' | parallel grepit

这将为每个核心运行1个作业。根据您的磁盘系统,并行运行更多或更少的作业可能会更快(使用-j来控制它)。

GNU Parallel是一个通用的并行程序,可以很容易地在同一台机器上或在你有ssh访问权限的多台机器上并行运行作业。

如果要在4个CPU上运行32个不同的作业,并行化的直接方法是在每个CPU上运行8个作业:

Simple scheduling

GNU Parallel会在完成后生成一个新进程 - 保持CPU处于活动状态,从而节省时间:

GNU Parallel scheduling

<强>安装

如果没有为您的发行版打包GNU Parallel,您可以进行个人安装,不需要root访问权限。这可以在10秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

有关其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解详情

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

完成教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel

答案 1 :(得分:0)

下面的内容应该有效

find /shrproj/  -type f -name '*.sas' \
-exec  grep -iq 'DB2' {} \;  \( \
  -exec grep -iq 'DSN=' {} \; -o \
  -exec grep -iq 'DATASRC=' {} \; \)  \
-ls \
-exec egrep -i 'DSN=|DATASRC=' {} \;

哪个有一些冗余,因为逻辑-q将在第一次匹配时退出(因此不能与打印所有匹配一起使用),但如果你没有很多匹配则不应该太慢只在最后找到DSN=DATASRC=的大型文件。

或者,不要过多地滥用grep -q

find /shrproj/  -type f -name '*.sas' \
-exec  grep -iq 'DB2'  {} \; \
-exec bash -c 'out=$(egrep -i "DSN=|DATASRC=" "$1"); [[ -n $out ]] && echo "$out" && exit 0 || exit 1 ' bash {} \; \
-ls