我正在网页抓取一个页面,我被迫使用正则表达式(我很糟糕)来提取我需要的信息,因为HTML的结构非常少。 HTML代码段如下:
LEEDS TOWN HALL<br>
Wednesday, 15 May 2013, 6:30PM - 8:30PM<br>
Tickets £7/£5 for including a glass of wine available in store or via 01234 567 890
我想首先将块分成html break标记的三个部分,然后使用正则表达式来提取我需要的信息。
如何将块拆分为三个以开始?
由于
答案 0 :(得分:0)
您只需要一个正则表达式,包含5个组:
(?s)([^<]+).*?, (.*?) - (.*?)<br>(.*)
由于你没有尝试创建一个正则表达式,我没有试图解释我的:)