如何从Python文件中读取与起始模式匹配的一行代码?

时间:2019-06-13 14:46:06

标签: python

我想从一个包含HTTP响应和HTML页面内容的数据文件中,仅使用Python提取HTTP响应(和标头)。

数据文件具有以下重复模式,响应和标头始终与内容以空行分隔,并且始终以HTTP / 1.1开头。我想要的是从“ HTTP / 1.1 200 OK”行中提取文本到空行上方的行(粗体文本)。

HTTP / 1.1 200 OK

服务器:nginx

日期:格林尼治标准时间2019年5月23日星期四

内容类型:text / html; charset = UTF-8

X-Crawler-Transfer-Encoding:分块

[空行]

页面内容...

[空行]

HTTP / 1.1 200 OK

...

到目前为止,这是我所掌握的,不知道如何进行。我对Python不熟悉,无法弄清楚如何读取几行并在循环中跳过它们。

with open('data') as f:
    lines = f.readlines()
    for line in lines:
        firstWord = line.split(' ')[0]
        if firstWord == 'HTTP/1.1':
                  what to do next?

1 个答案:

答案 0 :(得分:0)

您可以添加一个标志(例如ABC12345 2981101 CBA5-43-21 9019292 )来检查是否要阅读:

read