简单的python localhost代理 - 几乎正常工作

时间:2012-10-10 14:00:18

标签: python sockets proxy

我正在开发一个稍微大一点的项目,我需要在python中创建一个localhost代理。

我写的方式是在localhost上的端口8080上有一个TCP服务器(使用套接字和SOCK_STREAM)。它接受来自本地主机的请求,使用切片,string.find()和gethostbyname()查找目标IP,因此它打开另一个TCP套接字,发送请求并回复一个回复。之后,它将回复中继回localhost代理,后者又将其抛回浏览器。

这是带有充足调试消息和调试文件的代码,用于收集浏览器的请求和收到的回复(还要注意这只是一个原型,因此限制for循环而不是while 1循环):< / p>

import socket

local = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

f = open('test.txt', 'a')
local.bind(('localhost', 8080))
local.listen(5)
for i in xrange(20):
    print '=====%d=====\n' % i
    out = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    data, addr = local.accept()
    print 'Connection accepted'
    buffer = data.recv(4096)
    print 'data recieved'
    f.write('=============================================================\n')
    f.write(buffer)
    end = buffer.find('\n')

    print buffer
    #print buffer[:end]
    host = buffer[:end].split()[1]
    end = host[7:].find('/')

    print host[7:(end+7)]
    host_ip = socket.gethostbyname(host[7:(end+7)])
    #print 'remote host: ' + host + ' IP: ' + host_ip
    print 'sending buffer to remote host'
    out.connect((host_ip, 80))
    out.sendall(buffer)
    print 'recieving data from remote host'
    reply = out.recv(4096)
    out.close()
    print 'data recieved from remote host'
    f.write('+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++\n')
    f.write(reply)
    f.write('\n\n\n')
    print 'sending data back to local host'
    data.sendall(reply)
    print 'data sent'
local.close()
out.close()    
f.close()

现在我的问题是它似乎对前几个请求工作正常,它获取html和一些图像,但在某些时候它总是停在“数据接收”点并退出,因为它没有数据,即。缓冲区为空。浏览器仍然显示它正在加载页面的元素,但是当它停止并且我查看文本日志文件时,我看到缓冲区是空的,这意味着浏览器没有向代理提交任何内容?

我猜这个问题存在于浏览器如何提交请求以及我的脚本没有对此行为做出正确反应的问题上。

我知道我可以使用Twist框架,但是我想学习自己写这种东西。我一直在阅读有关SocketServer的内容,我可能会使用它,但我不知道它是否会解决这个问题,因为坦率地说,我真的不明白是什么导致了这个问题。我的脚本对于浏览器来说太慢了吗?服务器是否发送了多个答案,而我的接收套接字应该监听更多数据包?我的缓冲区大小(4096)是否太小?

我真的很感激在正确的方向上轻推。

谢谢!

1 个答案:

答案 0 :(得分:2)

好吧,我设法回答了我的问题。我之前怀疑的是部分原因 - 浏览器正在等待某些东西,而且有些东西是回复。

我发射了钢丝鲨,做了一些实验,我注意到我的代理使得很多丑陋的TCP RST出现在wireshark中。我还注意到,在正常连接中,许多服务器回复被分成几个不同的数据包。

基本上,我的程序没有从服务器获得所有答案,因为out.recv只得到了答复的一部分。显而易见的答案是制作循环并听取所有回复。我在http://www.binarytides.com/receive-full-data-with-the-recv-socket-function-in-python/找到了完美的解决方案。

我很快就重新编写了我的程序,它就像一个魅力。现在我可以继续我的整个项目。

我希望这可能会在将来遇到类似问题时帮助其他人。