标签: javascript php ajax web-crawler
我试图抓取一个网站并提取其中一些内容。然而,我需要的内容实际上是通过源网站上的ajax加载的,并且这些端点被锁定到他们的域(我得到401错误)。
是否有一个优雅的解决方案来抓取网站,这也允许他们首先运行他们的JS?我可以每天在cron上调用一些小型浏览器包装器来获取新内容吗?
对此表示赞赏:)