网络抓取工具,抓取工具和Googlebots

时间:2020-04-24 08:11:25

标签: python selenium web-scraping web-crawler googlebot

我最近被雇用使用Python抓取一个网站,他们告诉我他们的服务器需要它。我说好没问题。我开始使用Beautifulsoup制作刮板,并注意到它们会运行

You are using an <strong>outdated</strong> browser. Please
          <a href="http://browsehappy.com/">upgrade your browser</a> to improve
          your experience.

我说好,我想我们可以使用无头硒,它的抓取速度较慢,但​​可以在服务器上使用。然后我碰到另一项检查,说

[0424/010707.825:INFO:CONSOLE(1)] "Iframe Not Found"

这让我想知道Google漫游器如何绕过服务器上的密码?因为您可以在没有无头模式的情况下运行浏览器,并且不会得到这些检查,并且可以很好地抓取网页。如果没有无头模式就无法运行浏览器怎么办?如果有任何Google员工可以告诉我更多很棒的信息,或者有更多了解此事或与之合作的人。

0 个答案:

没有答案