所以我使用watir-webdriver登录网站并使用以下设置下载图像。
def initialize
@profile = Selenium::WebDriver::Firefox::Profile.new
@profile['browser.download.folderList'] = 2 # custom location
download_directory = "#{Dir.pwd}"
@profile['browser.download.dir'] = download_directory
@profile['browser.helperApps.neverAsk.saveToDisk'] = "image/jpeg"
@agent = Watir::Browser.new :firefox, profile: profile
end
我注意到在通过watir登录,然后打开选项卡并导航到我想在cdn服务器上下载的图像后,我只能执行此操作3次才能获得403禁止会话错误浏览器由watir打开。当我使用我的浏览器并手动执行相同的操作时,我没有达到此限制。
1)当我打开它时,浏览器和cdn会做什么?当watir打开它时会导致此问题?
2)有办法吗?
答案 0 :(得分:1)
听起来该网站正在嗅探连接/标头/访问率。我推荐了几件事:
您希望使用他们的授权方式与他们合作,首先获取对他们数据的访问权限。如果他们没有API,那么请非常友好并节省您的抓取速度。如果不这样做,就会永久禁止您的知识产权。