你好,我很困惑,
我的设置是:
我的Selenium脚本对我编写的所有网站都适用,但是5天前,我尝试抓取一个我想到的特定网站(link),并且在驱动程序之后无法加载实际的网页初始化。
我确保网页存在,并且在使用Firefox浏览器进行浏览时可以完美加载。
有人可以在这个谜上散发出些阳光吗?我不了解geckodriver.log的线索,但没有注意到此问题的根本原因。
有人建议如何调查或解决此问题吗?
答案 0 :(得分:0)
我已使用网址http://web.nli.org.il/sites/NLI/english/Pages/default.aspx
执行了您的用例。
网站似乎受到 Bot Management 服务提供商Distil Networks的保护,而导航由 GeckoDriver 控制的 Firefox 被检测到,随后被阻止。
以下是相关的<tag>
:
<link rel="stylesheet" href="/_layouts/15/Nli.PL.HomePage/js/lib/bootstrap/dist/css/bootstrap.min.css">
注意:观察link
标签中关键字 dist 的存在。
在这里您可以找到有关Chrome browser initiated through ChromeDriver gets detected的详细讨论