前一段时间,我做了一个刮板,直到几个月前,它一直工作良好。似乎蒸汽改变了某些页面上的HTML。主要是具有年龄检查或成熟内容的人。
我的问题是,如果再也没有表格,我该如何发送数据流需求以克服年龄限制?我想使用selenium,但是我也想使用scrapinghub,这些似乎不起作用,因为在尝试部署代码时出现错误,提示没有selenium模块。
关于做什么的任何线索?
以下是Steam HTML更改之前的代码:
def parse_product(self, response):
# Circumvent age selection form.
if '/agecheck/app' in response.url:
form = response.css('#agegate_box form')
action = form.xpath('@action').extract_first()
name = form.xpath('input/@name').extract_first()
value = form.xpath('input/@value').extract_first()
formdata = {
name: value,
'ageDay': '1',
'ageMonth': '1',
'ageYear': '1995'
}
yield FormRequest(
url=action,
cookies={'lastagecheckage': '1-January-1995','birthtime': '788911201'},
method='POST',
formdata=formdata,
callback=self.parse_product
)