需要使用node.js登录的Web抓取网页

时间:2019-03-02 13:22:11

标签: javascript node.js authentication web-scraping login

问题陈述:

我有这个网页,列表中的每个候选人都有一个链接,其中包含一些我想抓取的信息。

因此,对于所有应聘者,我必须单击链接并手动获取详细信息,这是一项繁琐的任务。

我想使它自动化,请帮帮我。

候选人列表

我的解决方案:

我认为要自动执行此任务,我应该编写一个脚本,该脚本将单击每个链接并抓取数据。

但是我想知道如何抓取需要登录的网页。

您看到的网页只能通过登录页面访问。

如果除此方法之外,还有其他更好的解决方案可以执行此任务-请帮忙。

谢谢:)

1 个答案:

答案 0 :(得分:0)

如果需要一次刮取数据并将其存储,则可以使用webscraper.io chrome扩展名并将数据保存为所需的文件格式。此处的抓取将直接在您的浏览器中完成,因此,您可以手动登录一次并开始抓取。

否则,如果要在服务器中集成抓取过程并将数据提供给用户,则可以使用axios / request之类的库发出HTTP请求,并使用cheerio从HTML中提取所需数据。

您还可以使用无头Chrome节点API,Puppeteer。

相关问题