javascript - 需要使用node.js登录的Web抓取网页

时间：2019-03-02 13:22:11

标签： javascript node.js authentication web-scraping login

问题陈述：

我有这个网页，列表中的每个候选人都有一个链接，其中包含一些我想抓取的信息。

因此，对于所有应聘者，我必须单击链接并手动获取详细信息，这是一项繁琐的任务。

我想使它自动化，请帮帮我。

我认为要自动执行此任务，我应该编写一个脚本，该脚本将单击每个链接并抓取数据。

但是我想知道如何抓取需要登录的网页。

您看到的网页只能通过登录页面访问。

如果除此方法之外，还有其他更好的解决方案可以执行此任务-请帮忙。

谢谢：）

答案 0 :(得分：0)

如果需要一次刮取数据并将其存储，则可以使用webscraper.io chrome扩展名并将数据保存为所需的文件格式。此处的抓取将直接在您的浏览器中完成，因此，您可以手动登录一次并开始抓取。

否则，如果要在服务器中集成抓取过程并将数据提供给用户，则可以使用axios / request之类的库发出HTTP请求，并使用cheerio从HTML中提取所需数据。

您还可以使用无头Chrome节点API，Puppeteer。