Scrapy是否可以抓取警报消息?
链接例如 http://domainhere/admin ,一旦在实际浏览器中加载,就会出现带有表单的警告消息以填充用户名和密码。
或者有没有办法在警报消息中检查表单以了解要填充的参数?
PS:我确实拥有此网站的凭据,我只想通过网络抓取自动化流程。
感谢。
答案 0 :(得分:1)
我通过以下方式做到了这一点:
代码:
import scrapy
class TestScraper(scrapy.Spider):
handle_httpstatus_list = [401]
name = "Test"
allowed_domains = ["xxx.xx.xx"]
start_urls = ["http://testdomain/test"]
auth = "Basic [Key Here]"
def parse(self, response):
return scrapy.Request(
"http://testdomain/test",
headers={'Authorization': self.auth},
callback=self.after_login
)
def after_login(self, response):
self.log(response.body)
现在,您可以在身份验证过程之后抓取该页面。