正则表达式从格式不正确的HTML块中提取文本

时间:2013-02-21 20:31:14

标签: regex scrapy

我正在网页抓取一个页面,我被迫使用正则表达式(我很糟糕)来提取我需要的信息,因为HTML的结构非常少。 HTML代码段如下:

LEEDS TOWN HALL<br>
Wednesday, 15 May 2013, 6:30PM - 8:30PM<br>
Tickets £7/£5 for including a glass of wine available in store or via 01234 567 890

我想首先将块分成html break标记的三个部分,然后使用正则表达式来提取我需要的信息。

如何将块拆分为三个以开始?

由于

1 个答案:

答案 0 :(得分:0)

您只需要一个正则表达式,包含5个组:

(?s)([^<]+).*?, (.*?) - (.*?)<br>(.*)

由于你没有尝试创建一个正则表达式,我没有试图解释我的:​​)