我试图找到一种自动方式来收集访问给定网站时所做的所有GET请求的列表,特别是那些获取驻留在其他域中的资源的请求。最终,我希望自动运行数千个网站。
到目前为止,我发现的最有希望的方法是selenium,特别是this somewhat old project我可以通过安装旧版本的selenium来运行(特别是独立服务器版本2.53.2和python selenium客户端版本1.0.3)。它有一个 captureNetworkTraffic 选项,服务器使用该选项返回所有请求的列表等。
运行脚本时,它返回结果列表,其中包括GET请求(如下所示):
http timing detail: (status, method, doc, size, time)
204, GET, /generate_204, 0, 62 ms
200, GET, /favicon.ico, 1150, 31 ms
200, GET, /barcode09.gif, 3011, 31 ms
200, GET, /, 3451, 110 ms
200, GET, /2cca7b2e99206b9c.js, 3451, 78 ms
200, GET, /nav_logo7.png, 5401, 16 ms
200, GET, /f_wkquEsVv8.js, 14632, 47 ms
但是,在查看代码时,我发现返回的完整路径类似于http://localhost:4444/favicon.ico, 因此,我感兴趣的原始域名信息将丢失。
有关如何让服务器返回原始网址的任何想法?另外一种不同的方法可以获得我需要的信息(如果可能的话,可以在python或java中)。