我正在学习硒如何爬行数据,但是我发现当网站通过硒打开时,它与我使用其他普通浏览器时获得的信息不同。甚至我添加标题。我很困惑。 我确实想上传两张对比图片,但目前无法在stackoverflow中上传它们。我什至尝试打开chrome驱动程序并手动输入网址,但是结果还是不一样。
我使用Python 3.6,硒和铬75.0.3770.80
from selenium import webdriver
driver = webdriver.Chrome() #创建driver实例
url = 'https://www.free-ss.ooo'
driver.get(url)
目前,我无法在堆栈溢出时发布图片,但我只想弄清楚如何使用硒来获取正常的网页。
答案 0 :(得分:0)
啊哈,我发现了问题,真的是因为目标站点检测到了硒,解决方法是添加选项
Chrome_options。 add_experiment_option('excludeSwitches',['enable-automation'])
答案 1 :(得分:0)
遇到了同样的问题,并且能够通过删除或修复适当的 user-agent
参数来解决它,并且它在 headless
和非无头模式下都能正常工作。
决议的灵感来自PDHide post