如何grep所有html页面中的所有外部链接

时间:2014-02-03 06:32:31

标签: html linux unix grep

我需要找到我们公司门户网站中的所有跳转页面,例如,用户在点击c-ref或链接时被定向到外部链接,我们有一个页面通知用户他们被重定向到一个外部网站。

我搜索并找到了这个

egrep -o "(mailto|ftp|http(s)?://){1}[^'\"]+" /path/to/file

但-o对我不起作用,可以告诉我一个解决方法......我也试过这个

find . -type f -name "*.html" -exec grep -i "http:" {} '+' > ~/result_invoi3.txt
它确实生成了一个大的链接文件,但因为我不知道unix所以我不能确定它是否正确加上我需要添加mailto和ftp也。

有人可以帮忙..

1 个答案:

答案 0 :(得分:0)

找到了解决方案,

首先执行此操作

find . -type f -name "*.html" -exec egrep -in "http:|mailto:" {} '+' > ~/inv_all.txt

然后

 egrep -in "http|mailto" inv_all.txt|egrep -iv "wtever.com" > ~/inv_final.txt