我正在尝试递归抓取一个网站,但我想在该域下排除一些网页,其中包含字符串“不必要的页面”。该字符串不在URL中。这是构建的原始命令:
wget -r --no-parent http://www.website.com
例如;我想刮掉维基百科。但我想排除包含关键字“药物”的文章。
有什么想法吗?
提前致谢!
答案 0 :(得分:0)
执行此操作的一种方法是使用以下选项。它将从您选择启动的任何路径开始刮取站点,并将排除您在LIST中指定的目录:
$ wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--domains somesite.tld \
--no-parent \
--exclude-directories=LIST \
www.somesite.tld/path/to/start