我尝试了很多建议,但我无法找到解决方案(我不知道是否可行)我使用的是Ubuntu 15.04的终端
我需要在文本文件中下载mywebsite.com/links_的所有内部和外部链接(所有链接都以links_开头)例如http://www.mywebsite.com/links_sony.aspx我不需要所有其他链接前mywebsite.com/index.aspx或conditions.asp等我用
wget --spider --recursive --no-verbose --output-file="links.csv" http://www.mywebsite.com
答案 0 :(得分:0)
如果你不介意使用其他几个工具来哄骗wget,那么你可以试试这个使用awk,grep,wget和lynx的bash脚本:
#! /bin/bash
lynx --dump $1 | awk '/http/{print $2}' | grep $2 > /tmp/urls.txt
for i in $( cat /tmp/urls.txt ); do wget $i; done
将上述脚本保存为getlinks,然后将其作为
运行./getlinks 'http://www.mywebsite.com' 'links_' > mycollection.txt
这种方法不会加载/需要太多其他工具;而是重用常用的工具。
您可能需要根据您使用的shell来进行引用。以上工作在标准bash中,并不依赖于这些工具的特定版本。
您可以自定义零件
do wget $1
使用适当的开关来满足您的特定需求,例如递归,蜘蛛,冗长等。在wget和$ 1之间插入这些开关。