我正在尝试下载以下网站http://computerone.altervista.org的某些页面,仅用于测试...
我的目标是只下载符合以下模式“*JavaScript*
”和“*index*
”的网页。
实际上,如果我尝试以下选项
wget \
-A "*Javascript*, *index*" \
--exclude-domains http://computerone.altervista.org/rss-articles/ \
-e robots=off \
--mirror -E -k -p -np -nc --convert-links \
--wait=5 -c \
http://computerone.altervista.org
它的工作原理是它试图下载http://computerone.altervista.org/rss-articles/
。
我的问题是:
http://computerone.altervista.org/rss-articles/
页面? --exclude-domains http://computerone.altervista.org/rss-articles/
选项,但尝试下载 P.S .:
查看我得到的源页面:
<link rel="alternate" type="application/rss+xml" title="RSS 2.0" href="rss-articles/" />
答案 0 :(得分:2)
wget -p
下载所有页面要求:
man wget:
要完成这个主题,值得知道Wget的想法 外部文档链接是
<A>
标记中指定的任何URL<AREA>
标记或<LINK>
以外的<LINK REL="stylesheet">
标记。
要排除rss-articles
使用-X
或--exclude-directories
wget -A "*Javascript*, *index*" -X "rss-articles" -e robots=off --mirror -E -k -p -np -nc -c http://computerone.altervista.org