如何使用正则表达式提取格式如下的html组:
.
.irrelevant html...
<b>Question 6</b><br>
lots of text
<p>
lots of text
<p>
<br>
<b>Answer 6</b><br>
lots of text
<p>
lots of text
<p>
lots of text
<p>
more text
<p>
<HR>
<IMG SRC="/images/image.jpg" alt="alt text" width=480 height=360 hspace=2 vspace=2>
<p>
<i>caption text</i>
可以有不同数量的问答配对。图像代码可以在任何地方(在问答之间,或在答案之后)......
我想要提取的唯一信息是问题#,文本没有段落html代码,Img src和alt和标题。
答案 0 :(得分:1)
我认为你应该看看这个问题“Is there an Application to Create Regular Expression Out of Text by Selecting Wanted Area?”
中的一些选项ReguLazy看起来很合适。
答案 1 :(得分:1)
您可能想尝试使用像Water这样的东西。然后,您可以通过编程方式搜索dom并找到所需内容。