Question

我想从一个包含HTTP响应和HTML页面内容的数据文件中，仅使用Python提取HTTP响应（和标头）。

数据文件具有以下重复模式，响应和标头始终与内容以空行分隔，并且始终以HTTP / 1.1开头。我想要的是从“ HTTP / 1.1 200 OK”行中提取文本到空行上方的行（粗体文本）。

HTTP / 1.1 200 OK

服务器：nginx

日期：格林尼治标准时间2019年5月23日星期四

内容类型：text / html； charset = UTF-8

X-Crawler-Transfer-Encoding：分块

[空行]

页面内容...

[空行]

HTTP / 1.1 200 OK

...

到目前为止，这是我所掌握的，不知道如何进行。我对Python不熟悉，无法弄清楚如何读取几行并在循环中跳过它们。

with open('data') as f:
    lines = f.readlines()
    for line in lines:
        firstWord = line.split(' ')[0]
        if firstWord == 'HTTP/1.1':
                  what to do next?

Answer 1

您可以添加一个标志（例如ABC12345 2981101 CBA5-43-21 9019292）来检查是否要阅读：

read

如何从Python文件中读取与起始模式匹配的一行代码？

1 个答案: