如何获取为页面加载的所有请求的响应主体?

时间:2018-11-14 05:48:40

标签: javascript node.js google-chrome phantomjs

我目前正在使用一种需要从网页获取数据的工具。 (类似于抓取,但不完全相同)。我需要的是一种为页面加载的所有请求获取响应正文的方法。我找到了一个解决方案(confess.js),该解决方案使用phantomjs来获取主要(发起程序)请求的正文。列出主要和子请求的URL,标头和cookie,甚至正文大小。但是我似乎找不到一种方法来获取子请求(如JS,CSS,Images等资源以及任何xhr请求)的主体数据。做到这一点的最佳方法是什么? (我不想单独点击每个网址,从而使我的网页上的点击次数翻倍)。我们将不胜感激。谢谢。

1 个答案:

答案 0 :(得分:1)

有一个简单的答案: https://mitmproxy.org/

在本地安装它,并将您的浏览器配置为使用此代理。 即可跟踪所有流量。(并且将轻松支持https)

如果您需要通过编程方式访问这些数据,则最好看看一些nodejs代理库。(http://anyproxy.iohttps://github.com/nodejitsu/node-http-proxy

您想要一个“反向代理”,您可以在其中传递所有请求。 那么您就可以控制页面中所有外发请求的请求/响应。 您可以“捕获”网址,正文等。

相关问题