蜘蛛网站遵循模式

时间:2014-08-24 15:31:58

标签: windows web-crawler wget

我正在尝试将一个以“website.com/A”开头的网站的网址保存到文本文档中(在命令提示符下使用Wget for windows,因此在我的情况下不能使用unix命令)。

如果我要保存“somewebsite.com”的所有网址,则以下命令有效:

wget --spider --recursive --no-verbose --output-file=wgetlog.txt http://somewebsite.com
sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@" > sedlog.txt

但是现在,如果我只想保存以“somewebsite.com/A”开头的“somewebsite.com”网址,我应该在上面的命令中添加哪些参数?我试过I或A paramaters,但它没有用。

0 个答案:

没有答案