我正在尝试使用PhantomJS抓取一些网页。但是,我无法使用PhantomJS获得所需的元信息。
使用wget,我能够同时获得重定向的数量和对象的IP地址。但是,我无法使用PhantomJS找到相同的东西。由于其他要求,我必须使用PhantomJS。
我尝试使用以下方法获取wget:
wget -4 -E -H -K -p -e robots=off --output-file=log.txt <url>
然后简单地使用python解析log.txt:
logFile = open('log.txt', 'r')
for line in logFile:
if 'HTTP request sent, awaiting response... 30' in line:
numRedirects = numRedirects + 1
if 'Connecting to' in line:
ip = line.split('|')[1]
在PhantomJS中,我发现要重定向的最接近的东西是:
page.onNavigationRequested
但是,我很难验证是否存在重定向。
我唯一想获得IP的就是在python中单独运行
import socket
IP = socket.gethostbyname(link)
但是,如果页面具有重定向,则这可能不正确的IP。