Question

我正在尝试递归抓取一个网站，但我想在该域下排除一些网页，其中包含字符串“不必要的页面”。该字符串不在URL中。这是构建的原始命令：

wget -r --no-parent http://www.website.com

例如;我想刮掉维基百科。但我想排除包含关键字“药物”的文章。

有什么想法吗？

提前致谢！

Answer 1

执行此操作的一种方法是使用以下选项。它将从您选择启动的任何路径开始刮取站点，并将排除您在LIST中指定的目录：

$ wget \
    --recursive \
    --no-clobber \
    --page-requisites \
    --html-extension \
    --convert-links \
    --restrict-file-names=windows \
    --domains somesite.tld \
    --no-parent \
    --exclude-directories=LIST \
        www.somesite.tld/path/to/start

使用wget递归下载网站时，排除包含特定字符串的网页

1 个答案: