我想从一个包含HTTP响应和HTML页面内容的数据文件中,仅使用Python提取HTTP响应(和标头)。
数据文件具有以下重复模式,响应和标头始终与内容以空行分隔,并且始终以HTTP / 1.1开头。我想要的是从“ HTTP / 1.1 200 OK”行中提取文本到空行上方的行(粗体文本)。
HTTP / 1.1 200 OK
服务器:nginx
日期:格林尼治标准时间2019年5月23日星期四
内容类型:text / html; charset = UTF-8
X-Crawler-Transfer-Encoding:分块
[空行]
页面内容...
[空行]
HTTP / 1.1 200 OK
...
到目前为止,这是我所掌握的,不知道如何进行。我对Python不熟悉,无法弄清楚如何读取几行并在循环中跳过它们。
with open('data') as f:
lines = f.readlines()
for line in lines:
firstWord = line.split(' ')[0]
if firstWord == 'HTTP/1.1':
what to do next?
答案 0 :(得分:0)
您可以添加一个标志(例如ABC12345 2981101
CBA5-43-21 9019292
)来检查是否要阅读:
read