我在Python 3中编写了一个微型代理模块,只是简单地坐在我的浏览器和网络之间。我的目标是仅仅代理来回流量。该程序的一个行为是保存我在本地目录中获得的网站响应。
一切都按照我期望的方式工作,除了在循环中使用socket.recv()
似乎永远不会产生examples provided in the docs中隐含的空白bytes
对象的简单事实。实际上,每个在线示例都会在服务器关闭时通过套接字来讨论空字符串。
我的假设是通过keep-alive标头进行某些操作,远程服务器从不关闭套接字,除非达到自己的超时阈值。它是否正确?如果是这样,我怎么能检测到有效载荷何时完成发送?由于TCP的运行方式,观察收到的数据小于我声明的块大小根本不起作用。
为了演示,以下代码在Google的Web服务器上的图像文件中打开一个套接字。我从浏览器自己的请求中复制了实际的请求字符串。运行代码(请记住,Python 3!)显示二进制图像数据已完成,但代码永远无法访问break
语句。仅当服务器关闭套接字时(在空闲时间约3分钟后),此代码才会实际到达文件末尾的print
命令。
一个人如何解决这个问题?我的目标是不修改浏览器请求的行为 - 我不想将keep-alive
标头设置为false
或类似的东西。答案是使用一些丑陋的超时(通过socket.settimeout()
)?看起来很可笑,但我不知道还能做些什么。
提前致谢。
import socket
remote_host = 'www.google.com'
remote_port = 80
remote_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
remote_socket.connect((remote_host, remote_port))
remote_socket.sendall(b'GET http://www.google.com/images/logos/ps_logo2a_cp.png HTTP/1.1\r\nHost: www.google.com\r\nCache-Control: max-age=0\r\nPragma: no-cache\r\nUser-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.794.0 Safari/535.1\r\nAccept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\nAccept-Encoding: gzip,deflate,sdch\r\nAccept-Language: en-US,en;q=0.8\r\nAccept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3\r\n\r\n')
content = b''
while True:
msg = remote_socket.recv(1024)
if not msg:
break
print(msg)
content += msg
print("DONE: %d" % len(content))
答案 0 :(得分:3)
如果您有保持连接,则会在响应的标头中显示消息长度的一些指示。见HTTP Message。缓冲区recv
,直到您有完整的标题(以空行终止),确定邮件正文长度,并准确读取这些信息。
这是一个缓冲TCP读取的简单类,直到读取了消息终止符或特定数量的字节。我把它添加到你的例子中:
import socket
import re
class MessageError(Exception): pass
class MessageReader(object):
def __init__(self,sock):
self.sock = sock
self.buffer = b''
def get_until(self,what):
while what not in self.buffer:
if not self._fill():
return b''
offset = self.buffer.find(what) + len(what)
data,self.buffer = self.buffer[:offset],self.buffer[offset:]
return data
def get_bytes(self,size):
while len(self.buffer) < size:
if not self._fill():
return b''
data,self.buffer = self.buffer[:size],self.buffer[size:]
return data
def _fill(self):
data = self.sock.recv(1024)
if not data:
if self.buffer:
raise MessageError('socket closed with incomplete message')
return False
self.buffer += data
return True
remote_host = 'www.google.com'
remote_port = 80
remote_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
remote_socket.connect((remote_host, remote_port))
remote_socket.sendall(b'GET http://www.google.com/images/logos/ps_logo2a_cp.png HTTP/1.1\r\nHost: www.google.com\r\nCache-Control: max-age=0\r\nPragma: no-cache\r\nUser-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.794.0 Safari/535.1\r\nAccept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\nAccept-Encoding: gzip,deflate,sdch\r\nAccept-Language: en-US,en;q=0.8\r\nAccept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3\r\n\r\n')
mr = MessageReader(remote_socket)
header = mr.get_until(b'\r\n\r\n')
print(header.decode('ascii'))
m = re.search(b'Content-Length: (\d+)',header)
if m:
length = int(m.group(1))
data = mr.get_bytes(length)
print(data)
remote_socket.close()
HTTP/1.1 200 OK
Content-Type: image/png
Last-Modified: Thu, 12 Aug 2010 00:42:08 GMT
Date: Tue, 21 Jun 2011 05:03:35 GMT
Expires: Tue, 21 Jun 2011 05:03:35 GMT
Cache-Control: private, max-age=31536000
X-Content-Type-Options: nosniff
Server: sffe
Content-Length: 6148
X-XSS-Protection: 1; mode=block
b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR\x00\x00\x01l\x00\x00\x00~\x08\x03\x00\ (rest omitted)
答案 1 :(得分:2)
让服务器关闭连接的一种非常简单的方法是将此标头添加到您的HTTP请求中:
Connection: close
默认情况下,允许HTTP / 1.1服务器保持连接打开,以便您可以创建第二个请求。您仍然应该创建一个超时,这样当服务器忽略标头时,您就不会因为套接字而挨饿。
答案 2 :(得分:0)
当tcp连接关闭时,它将发送一条最后的空白消息,指示套接字已关闭。当您收到消息时,您很可能也会关闭终端上的套接字。
答案 3 :(得分:0)
老实说,最简单,最可靠的解决方案仍然是使用套接字超时并将其封装在try / except中并利用socket.timeout异常。您可以查看收到的最后一点数据,看它是否应该已经死亡。
remote_socket.setblocking(True) # not really needed but to emphasize this
#is a blocking socket until the timeout
remote_socket.settimeout(15) # 15 second timeout
while True:
try
msg = remote_socket.recv(1024)
if not msg:
break
print(msg)
content += msg
except socket.timeout:
#do some checking on last received data
else:
#socket died for another reason or ended the way it was supposed to.