所以我需要使用套接字或扭曲模块编写自己的https请求
我想要得到的类似于使用urllib.request.urlopen(URL)
,可以使用Beautifulsoup对其进行解析
我确实尝试向google.com发送简单的b"GET / http/1.0 \r\n\r\n"
消息,但结果不是html的内容
Urllib返回整个html doc正文,而我的套接字消息仅返回 标头,告诉我“ GET”请求是否成功,例如“ 200 OK”或“ 400 Host Header Required”
我想实际获取html页面
我要解析整个页面的内容(即html代码)
如何格式化请求消息?