如何在Google中下载查询的所有链接?

时间:2019-06-19 14:46:37

标签: web-crawler wget

我想下载Google查询结果的前十页。

我考虑过要采取以下行动:

wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --restrict-file-names=windows \
     --domains WHICH_DOMAIN_HERE \
     --no-parent \
        "SOME LINK HERE"

但是,我在选择WHICH_DOMAIN_HERE时遇到问题:我希望它仅是一个域(因为我限制了site:domain.com的google搜索),但是我不确定如何同时指定google和该域,所以它确实下载了所有内容。同样,对于SOME LINK HERE,我不确定要输入什么,它应该是Google URL,我想是要执行查询并将其全部放在一个页面中。

我还担心的另一个问题是Google将阻止它,因为它是wget。

仅需注意:我想做的事完全合乎道德,我要从中下载链接的网站是一个由“我”(机构)控制的网站,该网站已迁移到新网站,并且我正尝试恢复一些旧内容。

我还应该提到,爬网的深度应该是1或2(取决于您的计数方式):Google页面->查询中的页面就是这样。

0 个答案:

没有答案