Question

我想下载Google查询结果的前十页。

我考虑过要采取以下行动：

wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --restrict-file-names=windows \
     --domains WHICH_DOMAIN_HERE \
     --no-parent \
        "SOME LINK HERE"

但是，我在选择WHICH_DOMAIN_HERE时遇到问题：我希望它仅是一个域（因为我限制了site：domain.com的google搜索），但是我不确定如何同时指定google和该域，所以它确实下载了所有内容。同样，对于SOME LINK HERE，我不确定要输入什么，它应该是Google URL，我想是要执行查询并将其全部放在一个页面中。

我还担心的另一个问题是Google将阻止它，因为它是wget。

仅需注意：我想做的事完全合乎道德，我要从中下载链接的网站是一个由“我”（机构）控制的网站，该网站已迁移到新网站，并且我正尝试恢复一些旧内容。

我还应该提到，爬网的深度应该是1或2（取决于您的计数方式）：Google页面->查询中的页面就是这样。

如何在Google中下载查询的所有链接？

0 个答案: