提取嵌套的xml标记(不是它的属性或值,甚至是内容。)

时间:2017-08-02 07:12:55

标签: html xml perl

嗨好伙伴们,我有一个真正的麻烦,在嵌套时从中获取xml标签。我需要你的帮助,在嵌套时从xml文件中找到起始标记和结束标记?使用Perl脚本(正则表达式或模块......一切正常)但只有perl

**注意:我需要为标签编号,严格来说我不需要标签内的内容。

尝试复制epsilon,因为当我选择起始标记时它会显示正确的结束标记。但我不能。**

下面粘贴的样本是一个小片段,但我需要任意数量的嵌套代码

sample Tag:
<mrow><mrow><mrow>....<mi>K<\mi>...<\mrow><mi><\mi><\mrow><\mrow>

expected output:

<mrow1><\mrow1>
<mrow2><\mrow2>
<mrow3><\mrow3>

1 个答案:

答案 0 :(得分:0)

我建议使用 Perl XML / XPath库

XML不是常规语言,因此在一般情况下正则表达式是不够的。尝试编写新代码以从XML文档中提取标记最终将归结为从头开始重写基本(即,不一定完全符合)的XML解析器。

XML使用如此广泛的一个原因是它是一个W3C标准,因此有很多现有的符合解析器,这节省了编写新解析器的时间和精力。一些解析器会将文档暴露给宿主语言(例如DOM),其中一些将包含XPath,这使得它更容易。

我希望这有帮助!