我想将网站链接到的所有网址(在同一个域中),而不是像wget那样下载所有内容。有没有办法告诉wget只列出它将下载的链接?
如果有人可以提出更好的解决方案,那么我正在使用它的一些背景知识:我正在尝试构建一个robots.txt文件,该文件排除以p [4-9]结尾的所有文件。 html但robots.txt不支持正则表达式。所以我试图获取所有链接,然后针对它们运行正则表达式,然后将结果放在robots.txt中。有什么想法吗?
答案 0 :(得分:0)
我的建议:将wget和gawk结合在一个(非常)小的shell脚本中。
维基百科上的AWK概述:http://en.wikipedia.org/wiki/AWK