我需要从列表中设置与不同网站的连接。只为该网站发送一些数据包和嗅探包,直到我不去下一个网站(迭代)。当我进入下一次迭代(网站)时,我想仅仅嗅探并过滤该地址。我可以在一个python代码中实现吗?
sniff(filter="ip and host " + ip_addr,prn=print_summary)
req = "GET / HTTP/1.1\r\nHost: "+ website +"\r\nConnection: keep-alive\r\nCache-Control: max-age=0\r\nUpgrade-Insecure-Requests: 1\r\nUser-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/58.0.3029.110 Chrome/58.0.3029.110 Safari/537.36\r\nAccept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8\r\nAccept-Language: en-US,en;q=0.8\r\n\r\n"
url = (website, 80)
c = socket.socket(socket.AF_INET, socket.SOCK_STREAM, proto=socket.IPPROTO_TCP)
c.settimeout(5.0)
c.connect(url)
c.setsockopt(socket.SOL_IP, socket.IP_TTL, i)
c.send(req)
print str(c.recv(4096))
c.close()
我在循环中运行上面的代码。但是在它第一次运行时它会停留在嗅探功能中。任何人都可以帮我这个吗?
答案 0 :(得分:1)
好的,我已经编辑了答案。
为单个网站嗅探数据包并不容易,因为scrapy使用的Berkley Packet Filter语法没有HTTP的简单选项。有关可用选项的一些建议,请参阅this question。
一种可能性是向您的Web代理服务器嗅探TCP数据包;我在下面的代码示例中完成了此操作,它将TCP数据包保存为各个命名文件的不同URL列表。我没有用任何逻辑来检测页面加载何时完成,我只使用了60秒的超时。如果你想要不同的东西,你可以用它作为起点。如果您没有代理服务器来嗅探,那么您需要更改bpf_filter变量。
注意如果要保存原始数据包数据而不是转换为字符串版本,请修改相关行(在代码中注释)。
from scapy.all import *
import urllib
import urlparse
import threading
import re
proxy = "http://my.proxy.server:8080"
proxyIP = "1.2.3.4" # IP address of proxy
# list of URLs
urls = ["http://www.bbc.co.uk/news",
"http://www.google.co.uk"]
packets = []
# packet callback
def pkt_callback(pkt):
packets.append(pkt) # save the packet
# monitor function
def monitor(fname):
del packets[:]
bpf_filter = "tcp and host " + proxyIP # set this filter to capture the traffic you want
sniff(timeout=60, prn=pkt_callback, filter=bpf_filter, store=0)
f=open(fname+".data", 'w')
for pkt in packets:
f.write(repr(pkt)) # or just save the raw packet data instead
f.write('\n')
f.close()
for url in urls:
print "capturing: " + url
mon = threading.Thread(target=monitor, args=(re.sub(r'\W+', '', url),))
mon.start()
data = urllib.urlopen(url, proxies={'http': proxy})
# this line gets IP address of url host, might be helpful
# addr = socket.gethostbyname(urlparse.urlparse(data.geturl()).hostname)
mon.join()
希望这给你一个很好的起点。