Question

使用RegExp匹配或查找html / xml元素 Regexp找到html / xml元素

这里我想找到id或没有id属性的html或xml元素。

示例html文件：

＆lt; p class =＆＃34; txt-ni＆＃34;＆gt;红色骨髓的辐射吸收剂量，是用I-131（放射性碘）治疗分化型甲状腺癌的关键器官，无法测量直。由于放射性碘浓度在血液和大多数器官中是相当的（＆lt; a href =＆＃34;＃bib5＆＃34; id =＆＃34; bib_5＆＃34;＆gt; Kolbert＆lt; em＆gt;等＆lt; / em＆gt; ;。2007＆lt; / a＆gt; ），并且被认为在红骨髓中相似（＆lt; a href =＆＃34;＃bib9＆＃34; id =＆＃34; bib_9＆＃34; ＆gt; Sgouros 2005＆lt; / a＆gt; ），对血液的吸收剂量似乎是对造血系统的辐射吸收剂量的良好的一阶近似，并且是一种更好的量化治疗暴露的方法而不是总量施用的活动量。＆lt; / p＆gt;

在上面这个样本是单行（没有输入标记）并且它包含两个＆lt; a＆gt;。现在标签我想找到每个＆lt; a＆gt;到＆lt; / a＆gt;分开。

这里我使用的是RegExp

“＆lt; a href =＆＃34;＃（[^＆＃34;] *）＆＃34; id =＆＃34;（[^＆＃34;] *）＆＃34;＆gt;（。*）＆lt; / a＆gt; “

以上RegExp将数学所有＆lt; a＆gt;行中的标记，我的意思是上面的RegExp returen跟随mathch

＆lt; a href =＆＃34;＃bib5＆＃34; id =＆＃34; bib_5＆＃34;＆gt; Kolbert＆lt; em＆gt;等＆lt; / em＆gt;。 2007＆lt; / a＆gt;），并且被认为在红骨髓中相似（＆lt; a href =＆＃34;＃bib9＆＃34; id =＆＃34; bib_9＆＃34;＆gt; Sgouros 2005＆lt; / a＆gt; < /强>

但我想分别匹配每个

1。＆lt; a href =＆＃34;＃bib5＆＃34; id =＆＃34; bib_5＆＃34;＆gt; Kolbert＆lt; em＆gt;等＆lt; / em＆gt;。 2007＆LT; / A＆GT;

2。＆lt; a href =＆＃34;＃bib9＆＃34; id =＆＃34; bib_9＆＃34;＆gt; Sgouros 2005＆lt; / a＆gt;

我希望你能理解我的要求

注意：

该元素还可以包含子元素＆lt; i＆gt;，＆lt; em＆gt;，＆lt; b＆gt;

Answer 1

尝试用以下代码替换正则表达式：

<a href="#([^"]*?)" id="([^"]*?)">(.*?)</a>

*符号后面的问号会告诉正则表达式引擎尽可能少发现。

您可能会发现此页面有关此主题的信息：http://www.regular-expressions.info/repeat.html

使用RegExp匹配或查找html / xml元素

1 个答案: