Question

我正在使用以下命令提取包含.com扩展名的不同网址，并且可能包含.us或任何国家/地区扩展名。

 grep '\.com' source.txt -m 700 | uniq | sed -e 's/www.//' 
> dest.txt

问题是，它在同一个doamin中提取网址，这是我不想要的东西。例如： abc.yahoo.com efg.yahoo.com

我只需要yahoo.com。我如何使用grep或任何其他命令仅提取不同的域名？

Answer 1

也许是这样的？

egrep -io '[a-z0-9\-]+\.[a-z]{2,3}(\.[a-z]{2})?' source.txt

Answer 2

您是否尝试过使用awk而不是sed并指定＆＃34;。＆＃34;作为分隔符，只打印出最后两个字段。

awk -F "." '{ print $(NF-1)"."$NF }'

Answer 3

也许这样的事情会有所帮助：

egrep -o '[^.]*.com' file