如何从Chrome中打开的标签页中抓取HTML?

时间:2018-12-28 22:04:02

标签: c# html web-scraping

我需要从网站访问实时数据。但是,它需要使用验证码和Chrome浏览器登录。我尝试使用WebClient完成此操作,但无法解决验证码和Chrome浏览器的要求。

因此,我想使用chrome浏览器手动登录到包含所需数据的确切页面。然后触发一个外部程序,以从打开的浏览器选项卡访问html并对其进行监视以获取新数据。我的首选语言是c#

任何帮助将不胜感激

1 个答案:

答案 0 :(得分:0)

木偶就是你所需要的。 一个简单的javascript脚本可以加载页面,等待您登录,然后从页面中抓取所需的任何数据。

https://pptr.dev

  

Puppeteer是一个Node库,它提供了高级API来通过DevTools协议控制Chrome或Chromium。 Puppeteer默认情况下无头运行,但是可以配置为运行完整(无头)的Chrome或Chromium。