Grep表示以特定字符结尾的字符串

时间:2014-10-21 22:28:11

标签: regex bash grep

是否有办法使用扩展正则表达式来查找以字符串结尾的特定模式。

我的意思是,我希望匹配前3行而不是最后一行:

file_number_one.pdf # comment
file_number_two.pdf # not interesting
testfile_number____three.pdf # some other stuff
myfilezipped.pdf.zip some comments and explanations

我知道在grep中,metacharacter $匹配一行的结尾,但我对匹配行结尾但字符串结束不感兴趣。 grep中的小组非常奇怪,我还不太了解它们。

我尝试过群组匹配,实际上我有一个类似的REGEX,但它不适用于grep -E

(\w+).pdf$

有没有办法在grep / egrep中进行字符串结束匹配?

4 个答案:

答案 0 :(得分:7)

您的示例适用于匹配字符串后面的空格:

grep -E '\.pdf ' input.txt

你所谓的“字符串”类似于grep所谓的“字”。 Word是一组字母数字字符。单词的好处在于,您可以将单词结尾与特殊\>匹配,后者将单词结尾与零字符长度的行进匹配。这也匹配在行尾。但是字符这个词不能改变,并且不包含标点符号,所以我们不能使用它。

如果你需要在行尾匹配,在单词后面没有空格,请使用:

grep -E '\.pdf |\.pdf$' input.txt

要包含文件名后面的字符不是空格字符“”,但其他空格(如标签\t)或名称后面紧跟注释的情况,从#开始,请使用:

grep -E '\.pdf[[:space:]#]|\.pdf$' input.txt

我也将说明单词boundarys的匹配,因为这将是完美的解决方案,除了我们不能在这里使用它,因为我们无法更改被视为单词的一部分的字符集。

输入包含foo作为单独的单词,并且作为较长单词的一部分,foo不在单词的末尾,因此不在单词边界:

$ printf 'foo bar\nfoo.bar\nfoobar\nfoo_bar\nfoo\n'
foo bar
foo.bar
foobar
foo_bar
foo

现在,为了匹配单词的边界,我们可以使用\<作为开头,\>来匹配结尾:

$ printf 'foo bar\nfoo.bar\nfoobar\nfoo_bar\nfoo\n' | grep 'foo\>'
foo bar
foo.bar
foo

请注意_如何匹配作为单词char - 但是,wordchars只是字母数字,[a-zA-Z0-9]。 另请注意,在仅包含foo的行中,行尾的foo是如何匹配的。我们不需要为行尾提供特殊情况。

答案 1 :(得分:0)

您需要在正则表达式中转义.。这个正则表达式将匹配以.pdf结尾的任何内容(以及仅以.pdf结尾的内容):

.*\.pdf$

答案 2 :(得分:0)

积极的前瞻最适合这种类型的东西。试一试:

grep -P "(^\w+\.pdf)(?=\s)" file

我假设文件名将始终在行的开头。

答案 3 :(得分:0)

您可以使用\>运算符

grep 'word\>' fileName