使用wget递归下载网站时,排除包含特定字符串的网页

时间:2014-06-22 19:43:16

标签: wget

我正在尝试递归抓取一个网站,但我想在该域下排除一些网页,其中包含字符串“不必要的页面”。该字符串不在URL中。这是构建的原始命令:

wget -r --no-parent http://www.website.com

例如;我想刮掉维基百科。但我想排除包含关键字“药物”的文章。

有什么想法吗?

提前致谢!

1 个答案:

答案 0 :(得分:0)

执行此操作的一种方法是使用以下选项。它将从您选择启动的任何路径开始刮取站点,并将排除您在LIST中指定的目录:

$ wget \
    --recursive \
    --no-clobber \
    --page-requisites \
    --html-extension \
    --convert-links \
    --restrict-file-names=windows \
    --domains somesite.tld \
    --no-parent \
    --exclude-directories=LIST \
        www.somesite.tld/path/to/start