在代码块中查找字符串(regexp)

时间:2012-07-06 20:59:44

标签: regex linux string grep newline

我需要在代码块中找到包含字符串的文件的名称(当然可以包含换行符),或者更具体地说:构造函数中的某些方法调用(让我们称之为 methodName )。我需要查看当前目录及其子目录中的所有java代码文件。

可能的匹配是:

public myClass() {
  a(1);
  b();
  myMethod("abc");
  c(5);
}

这是我到目前为止所提出的表达方式:

find . -name *.java | xargs nawk '{print $0 "~("FILENAME")"}' | tr -d "\n" | grep -s -i -o 'public \w\+([^)]*).*methodName([^~]*~([^)]*)'

于是......
- 递归发现* .java文件 - 每行打印出来,旁边是它所属的文件名(只是为了跟踪找到它的位置)
- \ n被移除以便能够在块中使用grep
- 然后查找 methodName

问题在于每次我需要使用。*我必须将表达式更改为对下一个表达式的否定,然后是下一个表达式。例如:如果我需要.*\~,我需要做([^~]*~ ...这不好,但我可以忍受它。问题出在 methodName ,因为否定该字符串将会更加痛苦。

有什么想法吗?可以用正则表达式完成吗?

2 个答案:

答案 0 :(得分:1)

你在贪婪中挣扎。默认情况下,.*会变得贪婪,所以它会消耗尽可能多的东西。只有在它完成所有内容之后,它才会尝试匹配表达式m的下一部分并进行回溯直到它完成。如果确实找到了模式的其余部分,它将匹配从.*('public \ w +([^)] *)'前面的模式的第一次出现到模式的最后出现的所有内容在.*methodName([^~]*~([^)]*))后面。

解决方案是制作.*懒惰:.*?,为您提供完整的表达式public \w\+([^)]*).*?methodName([^~]*~([^)]*)

有趣的是,使用否定字符类的解决方法是您使用它的情况下的首选解决方案,但是,是的,使用methodName执行类似操作可能会变得有点笨拙。

请参阅:Laziness Instead of Greediness

答案 1 :(得分:0)

尝试使用sed而不是grep。这可能有助于您入门:

find . -name *.java | xargs awk '{print $0 "~("FILENAME")"}' | \
sed -n '                                  # start sed with automatic printing suppressed
/public \w\+/,/^}/H                       # append all constructors to hold space
$!d                                       # stop here unless this is the last line
g                                         # copy hold space to pattern space
s/.*methodName([^~]*~(\([^)]*\)).*/\1/p   # if methodName is called, print the file name
'