Question

我经历了一些线程，无法找到解决方案。

如果我用Selenium和Beautifulsoup刮擦亚马逊，一切都会很好。但是，一旦我激活“无头”，我的输出就会改变，我需要输入一个验证码才能继续（默认情况下，它不是很友好的）。

我的目标是避免被蜜蜂探测为机器人（不仅是亚马逊，而且在其他页面上也是如此），就像我正面朝上刮擦一样，这似乎行得通，但这对我的资源来说实在是太不愉快了！ / p>

一个想法：无头浏览器是否可能不接受Cookie，脚本和图像？如何添加它们？

这是我的代码：

def seleniumhtml_url(link):
dic={}

dirname = os.path.dirname(__file__)
filepath = os.path.join(dirname, 'chromedriver')

chrome_options = Options()
chrome_options.add_argument('--incognito')
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-extensions')
chrome_options.add_argument('start-maximized')
chrome_options.add_argument('disable-infobars')

driver = webdriver.Chrome(executable_path=filepath, chrome_options=chrome_options)  # Optional argument, if not specified will search path.
driver.get(link)
time.sleep(3) # Let the user actually see something!
html = driver.execute_script("return document.getElementsByTagName('html')[0].innerHTML")
driver.quit()
soup = BeautifulSoup(html, 'lxml')
html = text_from_html(soup)
dic["html"] = html

return(dic)

输出为：

在下面输入您看到的字符抱歉，我们只需要确保您不是机器人即可。为了获得最佳结果，请确保您的浏览器接受cookie。键入您在该图像中看到的字符：尝试使用其他图像继续购物使用条件隐私政策©1996-2014，Amazon.com，Inc.或其附属公司

报废：如何使用无头硒检测不到

0 个答案: