如何使用正则表达式从html文件中提取问答数据组?

时间:2009-04-28 19:08:35

标签: regex

如何使用正则表达式提取格式如下的html组:

.
    .irrelevant html...
    <b>Question 6</b><br>

lots of text
<p>

lots of text
<p>
<br>

<b>Answer 6</b><br>
lots of text 
<p>

lots of text 
<p>

lots of text 
<p>

more text
<p>
<HR>

<IMG SRC="/images/image.jpg" alt="alt text" width=480 height=360 hspace=2 vspace=2> 
<p>

<i>caption text</i>

可以有不同数量的问答配对。图像代码可以在任何地方(在问答之间,或在答案之后)......

我想要提取的唯一信息是问题#,文本没有段落html代码,Img src和alt和标题。

2 个答案:

答案 0 :(得分:1)

我认为你应该看看这个问题“Is there an Application to Create Regular Expression Out of Text by Selecting Wanted Area?

中的一些选项

ReguLazy看起来很合适。

答案 1 :(得分:1)

您可能想尝试使用像Water这样的东西。然后,您可以通过编程方式搜索dom并找到所需内容。