Question

我试图找到一种自动方式来收集访问给定网站时所做的所有GET请求的列表，特别是那些获取驻留在其他域中的资源的请求。最终，我希望自动运行数千个网站。

到目前为止，我发现的最有希望的方法是selenium，特别是this somewhat old project我可以通过安装旧版本的selenium来运行（特别是独立服务器版本2.53.2和python selenium客户端版本1.0.3）。它有一个 captureNetworkTraffic 选项，服务器使用该选项返回所有请求的列表等。

运行脚本时，它返回结果列表，其中包括GET请求（如下所示）：

http timing detail: (status, method, doc, size, time)
204, GET, /generate_204, 0, 62 ms
200, GET, /favicon.ico, 1150, 31 ms
200, GET, /barcode09.gif, 3011, 31 ms
200, GET, /, 3451, 110 ms
200, GET, /2cca7b2e99206b9c.js, 3451, 78 ms
200, GET, /nav_logo7.png, 5401, 16 ms
200, GET, /f_wkquEsVv8.js, 14632, 47 ms

但是，在查看代码时，我发现返回的完整路径类似于http://localhost:4444/favicon.ico，因此，我感兴趣的原始域名信息将丢失。

有关如何让服务器返回原始网址的任何想法？另外一种不同的方法可以获得我需要的信息（如果可能的话，可以在python或java中）。

以自动方式查找访问网站时发出的所有GET请求

0 个答案: