与egrep正则表达式匹配的部分

时间:2010-02-20 00:02:38

标签: regex grep

我想知道,如果使用egrep((GNU grep)2.5.1),我可以选择匹配文本的一部分,例如:

grep '^([a-zA-Z.-]+)[0-9]+' ./file.txt

所以我只得到括号之间匹配的部分,如

house.com

而不是像我通常得到的整条线:

house.com112

假设我的file.txt中有一行house.com112。

(实际上这个正则表达式只是一个例子,我只想知道我是否只能打印整行的一部分。)

我知道在某些语言中,例如PHP,Perl甚至AWK我都可以,但我不知道我是否可以使用egrep。

提前谢谢!

4 个答案:

答案 0 :(得分:9)

在grep找到匹配的行后,使用sed修改结果:

grep '^[a-zA-Z.-]+[0-9]+' ./file.txt | sed 's/[0-9]\+$//'

或者如果你只想坚持使用grep,你可以使用grep和-o开关而不是sed:

grep '^[a-zA-Z.-]+[0-9]+' ./file.txt | grep -o '[a-zA-Z.-]+'

答案 1 :(得分:2)

你的正则表达式的第一部分比下半部分更通用,因为+是贪婪的,第二个[0-9] + 永远不匹配任何只匹配最后一个数字(感谢Paul )。如果您可以使您的前半部分更具体(例如,如果您知道它将以TLD结尾),您可以这样做。

有一个非常酷的工具名为ack,基本上是perp正则表达式的grep。我不确定是否可以在你的情况下使用,但如果你能在perl中做你想做的事,你可以用ack来做。

修改

为什么不放弃正则表达式的结尾?如果你这样做会有误报吗?如果你,你可以用正则表达式的前半部分再次将结果传递给egrep。

这似乎就是你要问的问题:另外,如果你不了解它,那么-o标志只会输出给定行的匹配部分。

答案 2 :(得分:2)

你可能想在grep中尝试-o,-w标志。 egrep是“已弃用”,因此请使用grep -E

$ echo "test house.com house.com112"| grep -Eow "house.com"
house.com

基本思想是遍历每个单词并测试是否相等。

$ echo "test house.com house.com112"| awk '{for(i=1;i<=NF;i++){ if($i=="house.com") print $i}}'
house.com

答案 3 :(得分:1)

使用常规的超前

$ echo 'house.com112' | grep -Po '([a-zA-Z.]+)(?=\d+)'
house.com