使用Sed提取完整网站的基本URL

时间:2012-11-08 01:25:51

标签: windows sed

我想找一个包含这样的文件:

    http://www.site1.com/d23bdbd0fbc517d34, r N 4
    https://www.site2.com/file/d23bdbd0fbc517d34, X
    http://www.site3.com/file/d23bdbd0fbc517d34
    https://www.site4.edu/site/d23bdbd0fbc517d34

我需要使用sed来获得这种输出:

    www.site1.com
    www.site2.com
    www.site3.com
    www.site4.edu

帮助!我无法让它完全正常工作。从技术上讲,我正在使用sed.exe for Windows,但它可能非常相似。

2 个答案:

答案 0 :(得分:2)

$ cat file.txt
    http://www.site1.com/d23bdbd0fbc517d34, r N 4
    https://www.site2.com/file/d23bdbd0fbc517d34, X
    http://www.site3.com/file/d23bdbd0fbc517d34
    https://www.site4.edu/site/d23bdbd0fbc517d34
$ sed -r 's@.*//([^ /]+).*@\1@g' file.txt
www.site1.com
www.site2.com
www.site3.com
www.site4.edu

如果您没有-r开关:

sed 's@.*//\([^ /]\+\)[/ ].*@\1@g' file.txt

此外,在 IIRC下,使用双引号而不是单引号。

所以也许:

sed.exe "s@.*//\([^ /]\+\)[/ ].*@\1@g" file.txt

答案 1 :(得分:1)

另一个变体是:

sed '\#.*www[.]\([^/]*\).*# s::\1:'

将显示

site1.com
site2.com
site3.com
site4.edu

进行测试
@ThinkPad-T420:~$ sed --version 
GNU sed version 4.2.1