不断保存在浏览器中打开的动态变化网页的内容

时间:2019-02-01 03:11:33

标签: web-scraping webpage

我想继续分析动态变化的网页中的文本-内容是我的登录特定信息,并且没有API可以通过脚本请求相同的内容。

因此,分析内容的唯一方法是在浏览器中打开页面,然后以html(或其他合适格式)保存网页并对其进行分析。

我需要每2-3秒进行一次此分析。因此,我想到的一种方法是,我可以通过脚本自动保存页面并分析保存的内容。有人可以建议我一些通过脚本保存打开的网页的方法吗?

或其他一些我想做的分析方式。

1 个答案:

答案 0 :(得分:1)

您可以使用Puppeteer(无头的Chrome节点API)。这样,您可以:

  1. 以编程方式导航到一个或多个特定页面
  2. 等待它呈现(因为您的页面是动态的)
  3. 将其内容(HTML,PDF或其他格式)转储到文件中
  4. 以您想要的方式处理
  5. (可选)包括计时器循环(如setInterval(() => { // Do stuff }, milliseconds)