Question

如何使用正则表达式提取格式如下的html组：

.
    .irrelevant html...
    <b>Question 6</b><br>

lots of text
<p>

lots of text
<p>
<br>

<b>Answer 6</b><br>
lots of text 
<p>

lots of text 
<p>

lots of text 
<p>

more text
<p>
<HR>

<IMG SRC="/images/image.jpg" alt="alt text" width=480 height=360 hspace=2 vspace=2> 
<p>

<i>caption text</i>

可以有不同数量的问答配对。图像代码可以在任何地方（在问答之间，或在答案之后）......

我想要提取的唯一信息是问题＃，文本没有段落html代码，Img src和alt和标题。

Answer 1

我认为你应该看看这个问题“Is there an Application to Create Regular Expression Out of Text by Selecting Wanted Area?”

中的一些选项

ReguLazy看起来很合适。

Answer 2

您可能想尝试使用像Water这样的东西。然后，您可以通过编程方式搜索dom并找到所需内容。

如何使用正则表达式从html文件中提取问答数据组？

2 个答案: