我想下载Google查询结果的前十页。
我考虑过要采取以下行动:
wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--domains WHICH_DOMAIN_HERE \
--no-parent \
"SOME LINK HERE"
但是,我在选择WHICH_DOMAIN_HERE时遇到问题:我希望它仅是一个域(因为我限制了site:domain.com的google搜索),但是我不确定如何同时指定google和该域,所以它确实下载了所有内容。同样,对于SOME LINK HERE,我不确定要输入什么,它应该是Google URL,我想是要执行查询并将其全部放在一个页面中。
我还担心的另一个问题是Google将阻止它,因为它是wget。
仅需注意:我想做的事完全合乎道德,我要从中下载链接的网站是一个由“我”(机构)控制的网站,该网站已迁移到新网站,并且我正尝试恢复一些旧内容。
我还应该提到,爬网的深度应该是1或2(取决于您的计数方式):Google页面->查询中的页面就是这样。