如何避免使用wget下载链接

时间:2012-12-05 10:44:40

标签: download wget

我正在尝试下载以下网站http://computerone.altervista.org的某些页面,仅用于测试...

我的目标是只下载符合以下模式“*JavaScript*”和“*index*”的网页。

实际上,如果我尝试以下选项

wget \
-A "*Javascript*, *index*" \
--exclude-domains http://computerone.altervista.org/rss-articles/ \
-e robots=off \
--mirror -E -k -p -np -nc --convert-links  \
--wait=5 -c  \
http://computerone.altervista.org

它的工作原理是它试图下载http://computerone.altervista.org/rss-articles/

我的问题是:

  1. 为什么它会尝试下载http://computerone.altervista.org/rss-articles/页面?
  2. 我应该如何避免它?我尝试了--exclude-domains http://computerone.altervista.org/rss-articles/选项,但尝试下载
  3. P.S .:
    查看我得到的源页面:

    <link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="rss-articles/" />
    

1 个答案:

答案 0 :(得分:2)

wget -p下载所有页面要求:

  

man wget:

     

要完成这个主题,值得知道Wget的想法              外部文档链接是<A>标记中指定的任何URL              <AREA>标记或<LINK>以外的<LINK REL="stylesheet">标记。

要排除rss-articles使用-X--exclude-directories

wget -A "*Javascript*, *index*" -X "rss-articles" -e robots=off --mirror -E -k -p -np -nc -c http://computerone.altervista.org