问题陈述:
我有这个网页,列表中的每个候选人都有一个链接,其中包含一些我想抓取的信息。
因此,对于所有应聘者,我必须单击链接并手动获取详细信息,这是一项繁琐的任务。
我想使它自动化,请帮帮我。
我认为要自动执行此任务,我应该编写一个脚本,该脚本将单击每个链接并抓取数据。
但是我想知道如何抓取需要登录的网页。
您看到的网页只能通过登录页面访问。
如果除此方法之外,还有其他更好的解决方案可以执行此任务-请帮忙。
谢谢:)
答案 0 :(得分:0)
如果需要一次刮取数据并将其存储,则可以使用webscraper.io chrome扩展名并将数据保存为所需的文件格式。此处的抓取将直接在您的浏览器中完成,因此,您可以手动登录一次并开始抓取。
否则,如果要在服务器中集成抓取过程并将数据提供给用户,则可以使用axios / request之类的库发出HTTP请求,并使用cheerio从HTML中提取所需数据。
您还可以使用无头Chrome节点API,Puppeteer。