正则表达式将“.html”添加到url

时间:2013-03-27 21:30:00

标签: regex sed wget

我想在使用wget进行一些报废后修改一些链接。

在使用wget导出我的网站期间,链接如href =“http://www.domain.com/whatever/page” 转换为href =“http://www.domain.com/whatever/page.html”

但是在wget范围之外引用的链接不会被修改,在某些情况下我想这样做。

我的命令是href =“http://www.domain.com/whatever/page”应该变成href =“http://www.domain.com/whatever/page.html”

我目前的正则表达是

sed -e "s|\"\(http://www\.domain\.com/.*\)/\([^\./]+\)\"|\"\1/\2.html\"|g"

知道我做错了什么吗?

2 个答案:

答案 0 :(得分:0)

试试这个:

$ perl -pe 's@href="http://www\.domain\.com/([^/]+/)?\w+(?!\.html)(?=")@$&.html@'

答案 1 :(得分:0)

试试这个:

sed -e "s|\"\(http://www\.domain\.com/.*\)/\(.\+\)\"|\"\1/\2.html\"|g"