在python中使用套接字时只获取部分HTML

时间:2018-01-24 23:49:28

标签: python html sockets httprequest

我的任务是在python中使用套接字从站点中获取HTML。 到目前为止,这是我想出来的。

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
hostName = socket.gethostbyname('www.usask.ca')
print(hostName)
s.connect((hostName, 80))
s.send("GET / HTTP/1.0\r\nHost: " + hostName + "\r\n\r\n")
print (s.recv(500000000))
s.close

效果不佳。我不太关心它的健壮性(我认为它是请求格式化的一个问题)而且更关心的是它只在打印时才会打印一小部分html。

当使用像urlib2这样的东西来获得html时,相比之下,我只能得到我想要的最多10%。

0 个答案:

没有答案