报废:如何使用无头硒检测不到

时间:2020-07-27 17:01:50

标签: python selenium screen-scraping

我经历了一些线程,无法找到解决方案。

如果我用Selenium和Beautifulsoup刮擦亚马逊,一切都会很好。 但是,一旦我激活“无头”,我的输出就会改变,我需要输入一个验证码才能继续(默认情况下,它不是很友好的)。

我的目标是避免被蜜蜂探测为机器人(不仅是亚马逊,而且在其他页面上也是如此),就像我正面朝上刮擦一样,这似乎行得通,但这对我的资源来说实在是太不愉快了! / p>

一个想法:无头浏览器是否可能不接受Cookie,脚本和图像? 如何添加它们?

这是我的代码:

def seleniumhtml_url(link):
dic={}

dirname = os.path.dirname(__file__)
filepath = os.path.join(dirname, 'chromedriver')

chrome_options = Options()
chrome_options.add_argument('--incognito')
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-extensions')
chrome_options.add_argument('start-maximized')
chrome_options.add_argument('disable-infobars')

driver = webdriver.Chrome(executable_path=filepath, chrome_options=chrome_options)  # Optional argument, if not specified will search path.
driver.get(link)
time.sleep(3) # Let the user actually see something!
html = driver.execute_script("return document.getElementsByTagName('html')[0].innerHTML")
driver.quit()
soup = BeautifulSoup(html, 'lxml')
html = text_from_html(soup)
dic["html"] = html

return(dic)

输出为:

在下面输入您看到的字符抱歉,我们只需要确保您不是机器人即可。为了获得最佳结果,请确保您的浏览器接受cookie。键入您在该图像中看到的字符:尝试使用其他图像继续购物使用条件隐私政策©1996-2014,Amazon.com,Inc.或其附属公司

0 个答案:

没有答案